ارائه یک روش جدید برای شناسایی عبارات کاندید در الگوریتم های استخراج عبارات کلیدی

  • سال انتشار: 1398
  • محل انتشار: هشتمین کنفرانس بین المللی فناوری اطلاعات، کامپیوتر و مخابرات
  • کد COI اختصاصی: ITCT08_025
  • زبان مقاله: فارسی
  • تعداد مشاهده: 592
دانلود فایل این مقاله

نویسندگان

حمید حبیب زاده مشتقین

دانش آموخته کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه علامه طباطبایی

ایمان رئیسی وانانی

استادیار گروه مدیریت صنعتی ، دانشکده مدیریت و حسابداری، دانشگاه علامه طباطبائی

فائزه شیخ سفلی

دانش آموخته کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه علامه طباطبایی

چکیده

عبارات کلیدی یک سند نمایش دهنده موضوع اصلی آن سند می باشد و از الگوریتم های استخراج عبارات کلیدی به عنوان یک ابزار ساده برای بازنمایی و تجزیه و تحلیل متون استفاده می شوند. به طور کلی استخراج عبارات کلیدی شامل دو مرحله شناسایی عبارات کاندید و وزن دهی عبارات می باشد. اکثر روش های استخراج عبارات کلیدی از روش های متداولی مانند شناسایی عبارات چند-گرم و یا شناسایی عبارات با استفاده از روش های گرامری استفاده می نمایند. شناسایی عبارات به روش چند-گرم معمولا در متون کوتاه کارایی مناسبی ندارند همچنین استفاده از دستورهای گرامری معمولا در شناسایی کلمات چند بخشی و یا عبارات حاوی کلمات توقف عملکرد مناسبی ندارند. در این مقاله یک روش داده محور برای شناسایی عبارات کلیدی در زبان فارسی پیشنهاد داده شده است. در جهت ارزیابی روش پیشنهادی به دلیل عدم وجود مجموعه دادهی مناسب جهت ارزیابی الگوریتم های استخراج عبارات کلیدی فارسی، دو مجموعه داده با استفاده از متون خبری و دیگری با استفاده از چکیده پایان نامه های فارسی در حوزه علوم انسانی ساخته شد. نتایج حاصل از به کارگیری روش فوق در 5 الگوریتم مطرح بدون ناظر بر اساس مجموعه داده اماده شده مورد ارزیابی قرارگرفت . نتایج ارزیابی برروی 5 عبارت کلیدی اول و 10 عبارات کلیدی اول پیش بینی شده نشان میدهد که به کارگیری روش پیشنهادی با توجه به عملکرد زمانی مشابه با روش های معمول شناسایی عبارات، افزایش معنا داری را در دقت الگوریتم های شناسایی عبارات کلیدی ایجاد میکند.

کلیدواژه ها

استخراج عبارات کلیدی، شناسایی عبارات کاندید، مجموعه داده استخراج عبارات کلیدی، پردازش زبان طبیعی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.