رهیافتی جدید برای خوشه‌بندی جریان متن

  • سال انتشار: 1388
  • محل انتشار: دومین کنفرانس بین المللی تحقیق در عملیات ایران
  • کد COI اختصاصی: ICIORS02_076
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1380
دانلود فایل این مقاله

نویسندگان

مریم خیرخواه زاده

مهران محسن زاده

امیرمسعود رحمانی

چکیده

خوشه‌بندی جریان متن مسئله مهمی در داده‌کاوی است و کاربردهای بسیار از جمله فیلترسازی گروه‌های خبری، خزش متن و سازمان‌دهی متن‌ها دارد. بیشتر روش‌های خوشه‌بندی جریان متن، رهیافت مبتنی بر مشابهت‌ را بکار می‌برند. این روش‌ها از طرح TF-IDF استفاده می‌کنند و کیفیت ضعیفی ارائه می‌دهند. در مقابل، مدل هموارساز مفهومی، کیفیت خوشه‌بندی را بهبود می بخشد ولی هنوز در تشخیص و نادیده گرفتن کلمات کلی موفق نیست. در این پروژه، مدل هموارساز مفهومی موجود را بهبود بخشیده‌ایم. همچنین روشی برای تخمین احتمال ترجمه کلمات و عبارات چند کلمه‌ای جدید ارائه کرده‌ایم. به این ترتیب کیفیت خوشه‌بندی جریان متن بهبود یافته است.

کلیدواژه ها

خوشه‌بندی جریان متن، عبارات چندکلمه‌ای، مدل هموارساز مفهومی.

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.