استخراج کلمات کلیدی از متون فارسی با استفاده از مکانیسم توجه و شبکه های یادگیری عمیق

سال انتشار: 1401
محل انتشار: سومین کنفرانس بین المللی یافته های پژوهشی در مهندسی برق، کامپیوتر و مکانیک
کد COI اختصاصی: ISCEL03_008
زبان مقاله: فارسی
تعداد مشاهده: 284

دانلود فایل این مقاله

نویسندگان

مصطفی قربان زاده

دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین(ع)،

محمدرضا حسنی آهنگر

هیئت علمی دانشکده کامپیوتر دانشگاه جامع امام حسین(ع)،

محسن نوروزی

پژوهشگردانشکده کامپیوتر دانشگاه جامع امام حسین(ع)،

چکیده

استخراج عبارتهای کلیدی همواره یکی از وظیفه های پراهمیت و دشوار در پردازش زبان طبیعی بوده که هم به خودی خود و هم به عنوان یک وظیفه بالادست در وظایفی چون بازیابی اطالعات، خلاصه سازی متن، دسته بند ی متن و دیگر وظیفه ها کارایی دارد. بررسی مقاالت کار شده روی زبان فارسی در این وظیفه نشان میدهد که توجه کمتری به روشهای نوین هوش مصنوعی و شبکه عصبی در حل این مسئله شده است بنابراین در این پژوهش نشان داده شد چگونه با استفاده از شبکه های عصبی عمیق و استفاده از مدل ها ی زبانی میتوان به درک عمیقی از کلمات رسید و با دقت خوبی کلمات کلیدی متن را استخراج کرد. همچنین اثبات کردیم سازوکار توجه چند سر که نوع تعمیم یافته سازوکار توجه است تا چه اندازه توانسته به حل مسائل کلاس های نامتعادل کمک کند. پارسبرت که نوع تعمیم یافته برت آموزش دیده شده روی متن فارسی میباشد، در درک کلمات فارسی کارآیی و دقت خوبی نسبت به دیگر مدل های زبانی چون word۲vec و ... دارد و در این پژوهش مورد استفاده قرار گرفت. برای آموزش شبکه های عصبی نیاز به داده فراوان داریم. پس از بررسی تنها و غنی ترین مجموعه داده، PerKey مجموعه داده جمع آوری شده توسط آقای دوست محمدی بود که به صورت عمومی در دسترس قرار دارد. پس از آموزش روش پیشنهادی و ارزیابی نتا یج روی سه معیار صحت و بازخوانی و امتیاز اف-۱ در مقایسه با روشهای پایه آماری، مبتنی بر گراف و همچنین روش یادگیری عمیق دنباله به دنباله مقاله دوست محمدی و همکاران ۲۰۱۹ روش پیشنهادی ما روی ۵ و ۱۰ کلمه کلیدی برتر به ترتیب ۱۶.۰۴ درصد و ۲۲.۳۵ درصد رشد در معیار اف-۱، ۱۴.۰۹ درصد و ۱۳.۹۸ درصد رشد در معیار بازخوانی و همچنین ۲۴.۱۵ درصد و ۳۱.۶۴ درصد رشد در معیار صحت نسبت به شبکه عمیق دنباله به دنباله مقاله دوست محمدی و همکاران ۲۰۱۹ داشته است.

کلیدواژه ها

استخراج کلمات کلیدی، مدل زبانی Bert، مکانیسم توجه، یادگیری عمیق

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.