ارائه یک روش جدید برای شناسایی عبارات کاندید در الگوریتم های استخراج عبارات کلیدی
- سال انتشار: 1398
- محل انتشار: هشتمین کنفرانس بین المللی فناوری اطلاعات، کامپیوتر و مخابرات
- کد COI اختصاصی: ITCT08_025
- زبان مقاله: فارسی
- تعداد مشاهده: 592
نویسندگان
دانش آموخته کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه علامه طباطبایی
استادیار گروه مدیریت صنعتی ، دانشکده مدیریت و حسابداری، دانشگاه علامه طباطبائی
دانش آموخته کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه علامه طباطبایی
چکیده
عبارات کلیدی یک سند نمایش دهنده موضوع اصلی آن سند می باشد و از الگوریتم های استخراج عبارات کلیدی به عنوان یک ابزار ساده برای بازنمایی و تجزیه و تحلیل متون استفاده می شوند. به طور کلی استخراج عبارات کلیدی شامل دو مرحله شناسایی عبارات کاندید و وزن دهی عبارات می باشد. اکثر روش های استخراج عبارات کلیدی از روش های متداولی مانند شناسایی عبارات چند-گرم و یا شناسایی عبارات با استفاده از روش های گرامری استفاده می نمایند. شناسایی عبارات به روش چند-گرم معمولا در متون کوتاه کارایی مناسبی ندارند همچنین استفاده از دستورهای گرامری معمولا در شناسایی کلمات چند بخشی و یا عبارات حاوی کلمات توقف عملکرد مناسبی ندارند. در این مقاله یک روش داده محور برای شناسایی عبارات کلیدی در زبان فارسی پیشنهاد داده شده است. در جهت ارزیابی روش پیشنهادی به دلیل عدم وجود مجموعه دادهی مناسب جهت ارزیابی الگوریتم های استخراج عبارات کلیدی فارسی، دو مجموعه داده با استفاده از متون خبری و دیگری با استفاده از چکیده پایان نامه های فارسی در حوزه علوم انسانی ساخته شد. نتایج حاصل از به کارگیری روش فوق در 5 الگوریتم مطرح بدون ناظر بر اساس مجموعه داده اماده شده مورد ارزیابی قرارگرفت . نتایج ارزیابی برروی 5 عبارت کلیدی اول و 10 عبارات کلیدی اول پیش بینی شده نشان میدهد که به کارگیری روش پیشنهادی با توجه به عملکرد زمانی مشابه با روش های معمول شناسایی عبارات، افزایش معنا داری را در دقت الگوریتم های شناسایی عبارات کلیدی ایجاد میکند.کلیدواژه ها
استخراج عبارات کلیدی، شناسایی عبارات کاندید، مجموعه داده استخراج عبارات کلیدی، پردازش زبان طبیعیمقالات مرتبط جدید
- بررسی تاثیر سود آوری بر ساختار سرمایه و سرعت تعدیل اهرم مالی در شرکت های پذیرفته شده در بورس اوراق بهادار تهران
- بررسی تاثیر هوش معنوی بر رفتار برنامه ریزی شده در بین سهام داران یزدی در بورس اوراق بهادار تهران
- بررسی تاثیر دانش مالی، تجربه مالی بر رفتار برنامه ریزی شده در بین سهام داران یزدی در بورس اوراق بهادار تهران
- تاثیر سیستم های اطلاعاتی بر موفقیت شرکت با نقش میانجی کیفیت اطلاعات غیر مالی
- بررسی رابطه بین انگیزش و کارایی در سازمان (مطالعه موردی: اداره راه و شهرسازی شهرستان لارستان)
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.