CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

استخراج واژگان کلیدی از متن با رویکرد یادگیری عمیق

عنوان مقاله: استخراج واژگان کلیدی از متن با رویکرد یادگیری عمیق
شناسه ملی مقاله: EMECCONF03_015
منتشر شده در سومین کنفرانس بین المللی مهندسی برق،مهندسی مکانیک، کامپیوتر و علوم مهندسی در سال 1398
مشخصات نویسندگان مقاله:

سینا دامی - استادیار گروه کامپیوتر، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایران
احسان جوزدانی - دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایران

خلاصه مقاله:
با پیشرفت جوامع بشری و بوجود آمدن منابع عظیم اطلاعاتی، استفاده و بهرهبرداری از این منابع بعلت وجود حجم بالای اطلاعات روزبه روز مشکل تر میشد. در این میان بواسطه گسترش اینترنت، رشد شبکه های اجتماعی و ...، منابع متنی با رشد مضاعفی مواجه گردیدند که باعث بروز مشکل جدی در تحلیل و استفاده از این منابع شد، لذا محققان به تدوین راهکاری جهت فهم محتوای این منابع پرداختند و روشهایی متعددی را تدوین نمودند، در بیشتر این روشها اولین قدم، دانستن واژگان کلیدی متن می باشد. واژگان کلیدی عباراتی هستند که موضوع اصلی مورد بحث در یک سند را مشخص مینمایند و خلاصه متن را در قالب چندین واژه نمایش میدهند. روشهای متعددی برای استخراج این واژگان وجود دارد. در سالهای اخیر، تکنیکهای یادگیری عمیق نتایج قابل توجهی را در بسیاری از امور مربوط به پردازش متون ازجمله استخراج واژگان کلیدی به دست آورده است. در این مقاله ما از یک رویکرد رتبهبندی مبتنی بر گراف که امتیازات کلمات را با استفاده از اطلاعات ارائه شده توسط بردار WORD EMBEDDING و همچنین آمار محلی محاسبه میکند، استفاده میکنیم. رتبهبندی و در نتیجه استخراج عبارات کلیدی با ایجاد یک گراف و وزندهی به یالهای آن و سپس با استفاده از یک الگوریتم PageRank وزن دار انجام میپذیرد. همچنین ما برای بهبود عملکرد این سیستم از موجودیتهای نامدار((NER با شرایط خاص، در بخشی از این سیستم استفاده کردیم. نتایج حاصل نشان داد که این روش نسبت به روشهای مشابه بازدهی بهتری دارد.

کلمات کلیدی:
متن کاوی، استخراج واژگان کلیدی، یادگیری عمیق، الگوریتم PageRank، موجودیت نامدار

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/933211/