دسته بندی موضوعی پرس وجوهای زبان فارسی

  • سال انتشار: 1395
  • محل انتشار: هشتمین کنفرانس بین المللی فناوری اطلاعات ودانش
  • کد COI اختصاصی: ICIKT08_140
  • زبان مقاله: فارسی
  • تعداد مشاهده: 688
دانلود فایل این مقاله

نویسندگان

محمدصادق زاهدی

مرکز تحقیقات مخابرات ایران- دانشگاه تهران

بهروز منصوری

دانشگاه تهران

مژگان فرهودی

مرکز تحقیقات مخابرات ایران

شیوا مرادخانی

مرکز تحقیقات مخابرات ایران

چکیده

مسئله ی دسته بندی موضوعی پرس وجوها یکی از مسائل چالش برانگیز و مهم در زمینه داده کاوی است که در بسیاری از زمینه ها نظیرموتورهای جستجو، سیستم پرسش و پاسخ و سیستم های آنلاین تبلیغات کاربرد دارد. با وجود اهمیت بسیار بالای دسته بندی موضوعیپرس وجوها، هنوز پژوهشی در این زمینه برای زبان فارسی صورت نگرفته است لذا در این مقاله سعی شده است، در ابتدا راهکاری برایدسته بندی موضوعی پرس وجوهای زبان فارسی ارائه گردد و سپس بر اساس آن پرس وجوهای لاگ موتور جستجوی بومی تحلیل شود. دوروش مبتنی بر مدل زبانی و اسناد مرتبط با پرس وجو ارائه شده است که هر دو روش از نسخه ی توسعه یافته ی مجموعه داده ی همشهریبه عنوان داده آموزشی استفاده می نمایند. برای ارزیابی روش های ارائه شده از یک مجموعه داده استاندارد برای دسته بندی موضوعیپرس وجوهای فارسی شامل 7000 پرس وجو و دسته ی موضوعی آنها، استفاده شده است. نتایج حاصل شده حاکی از عملکرد مناسبروشهای پیشنهادی برای دسته بندی موضوعی پرس وجوهای زبان فارسی دارند.

کلیدواژه ها

دسته بندی پرس وجو، دسته بندی موضوعی پرس وجو، لاگ موتور جستجو، Query Classification

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.