رهیافتی جدید برای خوشهبندی جریان متن
- سال انتشار: 1388
- محل انتشار: دومین کنفرانس بین المللی تحقیق در عملیات ایران
- کد COI اختصاصی: ICIORS02_076
- زبان مقاله: فارسی
- تعداد مشاهده: 1380
نویسندگان
چکیده
خوشهبندی جریان متن مسئله مهمی در دادهکاوی است و کاربردهای بسیار از جمله فیلترسازی گروههای خبری، خزش متن و سازماندهی متنها دارد. بیشتر روشهای خوشهبندی جریان متن، رهیافت مبتنی بر مشابهت را بکار میبرند. این روشها از طرح TF-IDF استفاده میکنند و کیفیت ضعیفی ارائه میدهند. در مقابل، مدل هموارساز مفهومی، کیفیت خوشهبندی را بهبود می بخشد ولی هنوز در تشخیص و نادیده گرفتن کلمات کلی موفق نیست. در این پروژه، مدل هموارساز مفهومی موجود را بهبود بخشیدهایم. همچنین روشی برای تخمین احتمال ترجمه کلمات و عبارات چند کلمهای جدید ارائه کردهایم. به این ترتیب کیفیت خوشهبندی جریان متن بهبود یافته است.کلیدواژه ها
خوشهبندی جریان متن، عبارات چندکلمهای، مدل هموارساز مفهومی.اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.