ارزیابی و بررسی تاثیر و پیشرفت استخراج اتوماتیک عبارات کلیدی درمجموعه داده ها

  • سال انتشار: 1400
  • محل انتشار: دوازدهمین کنفرانس ملی مهندسی برق ،کامپیوتر و مکانیک
  • کد COI اختصاصی: ECME12_007
  • زبان مقاله: فارسی
  • تعداد مشاهده: 239
دانلود فایل این مقاله

نویسندگان

عادله غلامی

کارشناسی ارشد مهندسی کامپیوتر-نرم افزار

چکیده

استخراج کلمه کلیدی که گاهی اوقات تشخیص کلمه کلیدی یا آنالیز کلمه کلیدی نیز نامیده می شود یک تکنیک مورداستفادهبرای آنالیز متن است. هدف اصلی این تکنیک این است که به طور خودکار پربسامدترین کلمات و عبارات را از بدنه یک متناستخراج کند. اغلب به عنوان اولین قدم برای خلاصه کردن ایده های اصلی یک متن و ارائه ایده های کلیدی ارائه شده در متناستفاده می شود. استخراج عبارات کلیدی به طور گسترده ای، مورد آزمون قرار گرفته است، پیشرفت کارایی این عمل هنوزبسیار پایین تر از اعمال اصلی پردازش زبان طبیعی است. از طرفی رشد فزاینده اسناد متنهی برروی وب در مجموعه داده ها،ضرورت استفاده از ابزارهای پردازش خودکار متون را بیش از پیش آشکار می سازد. همچنین در اکثر روش های استخراجکلمات کلیدی در مجمعه داده ها، مفهوم و معنای متن نادیده گرفته می شوند. از طرفی دیگر، بدون ساختار بودن متون جدیددر اخبار و اسناد الکترونیکی، استخراج این کلمات را مشکل می سازد. در گذشته جستجوی کلمات کلیدی به صورت دستیانجام می شد ولی محققان روش هایی را بکار بردند که جستجوی کلمات کلیدی و خلاصه سازی آن بصورت اتوماتیک انجام شود.در این تحقیق به بررسی و ارزیابی پیشرفت استخراج کلمات کلیدی اتوماتیک و بررسی منابع اصلی خطا در سیستم هایموجود، پرداخته شده و در نهایت به رهیافت مبتنی بر گراف برای استخراج عبارات کلیدی به صورت خودکار بیان می شود.

کلیدواژه ها

کلمات کلیدی، پردازش زبان، استخراج کلمات، مجموعه داده ها

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.