CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه یک روش جدید برای شناسایی عبارات کاندید در الگوریتم های استخراج عبارات کلیدی

عنوان مقاله: ارائه یک روش جدید برای شناسایی عبارات کاندید در الگوریتم های استخراج عبارات کلیدی
شناسه ملی مقاله: ITCT08_025
منتشر شده در هشتمین کنفرانس بین المللی فناوری اطلاعات، کامپیوتر و مخابرات در سال 1398
مشخصات نویسندگان مقاله:

حمید حبیب زاده مشتقین - دانش آموخته کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه علامه طباطبایی
ایمان رئیسی وانانی - استادیار گروه مدیریت صنعتی ، دانشکده مدیریت و حسابداری، دانشگاه علامه طباطبائی
فائزه شیخ سفلی - دانش آموخته کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه علامه طباطبایی

خلاصه مقاله:
عبارات کلیدی یک سند نمایش دهنده موضوع اصلی آن سند می باشد و از الگوریتم های استخراج عبارات کلیدی به عنوان یک ابزار ساده برای بازنمایی و تجزیه و تحلیل متون استفاده می شوند. به طور کلی استخراج عبارات کلیدی شامل دو مرحله شناسایی عبارات کاندید و وزن دهی عبارات می باشد. اکثر روش های استخراج عبارات کلیدی از روش های متداولی مانند شناسایی عبارات چند-گرم و یا شناسایی عبارات با استفاده از روش های گرامری استفاده می نمایند. شناسایی عبارات به روش چند-گرم معمولا در متون کوتاه کارایی مناسبی ندارند همچنین استفاده از دستورهای گرامری معمولا در شناسایی کلمات چند بخشی و یا عبارات حاوی کلمات توقف عملکرد مناسبی ندارند. در این مقاله یک روش داده محور برای شناسایی عبارات کلیدی در زبان فارسی پیشنهاد داده شده است. در جهت ارزیابی روش پیشنهادی به دلیل عدم وجود مجموعه دادهی مناسب جهت ارزیابی الگوریتم های استخراج عبارات کلیدی فارسی، دو مجموعه داده با استفاده از متون خبری و دیگری با استفاده از چکیده پایان نامه های فارسی در حوزه علوم انسانی ساخته شد. نتایج حاصل از به کارگیری روش فوق در 5 الگوریتم مطرح بدون ناظر بر اساس مجموعه داده اماده شده مورد ارزیابی قرارگرفت . نتایج ارزیابی برروی 5 عبارت کلیدی اول و 10 عبارات کلیدی اول پیش بینی شده نشان میدهد که به کارگیری روش پیشنهادی با توجه به عملکرد زمانی مشابه با روش های معمول شناسایی عبارات، افزایش معنا داری را در دقت الگوریتم های شناسایی عبارات کلیدی ایجاد میکند.

کلمات کلیدی:
استخراج عبارات کلیدی، شناسایی عبارات کاندید، مجموعه داده استخراج عبارات کلیدی، پردازش زبان طبیعی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1010115/