استخراج واژگان کلیدی از متن با رویکرد یادگیری عمیق

  • سال انتشار: 1398
  • محل انتشار: سومین کنفرانس بین المللی مهندسی برق،مهندسی مکانیک، کامپیوتر و علوم مهندسی
  • کد COI اختصاصی: EMECCONF03_015
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1247
دانلود فایل این مقاله

نویسندگان

سینا دامی

استادیار گروه کامپیوتر، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایران

احسان جوزدانی

دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایران

چکیده

با پیشرفت جوامع بشری و بوجود آمدن منابع عظیم اطلاعاتی، استفاده و بهرهبرداری از این منابع بعلت وجود حجم بالای اطلاعات روزبه روز مشکل تر میشد. در این میان بواسطه گسترش اینترنت، رشد شبکه های اجتماعی و ...، منابع متنی با رشد مضاعفی مواجه گردیدند که باعث بروز مشکل جدی در تحلیل و استفاده از این منابع شد، لذا محققان به تدوین راهکاری جهت فهم محتوای این منابع پرداختند و روشهایی متعددی را تدوین نمودند، در بیشتر این روشها اولین قدم، دانستن واژگان کلیدی متن می باشد. واژگان کلیدی عباراتی هستند که موضوع اصلی مورد بحث در یک سند را مشخص مینمایند و خلاصه متن را در قالب چندین واژه نمایش میدهند. روشهای متعددی برای استخراج این واژگان وجود دارد. در سالهای اخیر، تکنیکهای یادگیری عمیق نتایج قابل توجهی را در بسیاری از امور مربوط به پردازش متون ازجمله استخراج واژگان کلیدی به دست آورده است. در این مقاله ما از یک رویکرد رتبهبندی مبتنی بر گراف که امتیازات کلمات را با استفاده از اطلاعات ارائه شده توسط بردار WORD EMBEDDING و همچنین آمار محلی محاسبه میکند، استفاده میکنیم. رتبهبندی و در نتیجه استخراج عبارات کلیدی با ایجاد یک گراف و وزندهی به یالهای آن و سپس با استفاده از یک الگوریتم PageRank وزن دار انجام میپذیرد. همچنین ما برای بهبود عملکرد این سیستم از موجودیتهای نامدار((NER با شرایط خاص، در بخشی از این سیستم استفاده کردیم. نتایج حاصل نشان داد که این روش نسبت به روشهای مشابه بازدهی بهتری دارد.

کلیدواژه ها

متن کاوی، استخراج واژگان کلیدی، یادگیری عمیق، الگوریتم PageRank، موجودیت نامدار

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.