خلاصه سازی استخراجی متن با استقاده از مجموعه الگوریتم های خلاصه سازی و روش Sa-TRB

  • سال انتشار: 1402
  • محل انتشار: مجله پژوهش های نظری و کاربردی هوش ماشینی، دوره: 1، شماره: 2
  • کد COI اختصاصی: JR_ABMIR-1-2_012
  • زبان مقاله: فارسی
  • تعداد مشاهده: 110
دانلود فایل این مقاله

نویسندگان

ابوالفضل صدرالساداتی

دپارتمان فنی مهندسی دانشگاه تبریز - تبریز - ایران

محمدرضا فیضی درخشی

استاد گروه مهندسی کامپیوتر - دانشکده مهندسی برق و کامپیوتر دانشگاه تبریز- تبریز- ایران

چکیده

خلاصه سازی استخراجی متن یک تکنیک ضروری در پردازش زبان طبیعی است که با استخراج مهمترین جملات به تولید نسخه های فشرده از متن کمک می کند. در خلاصه سازی استخراجی جملاتی که حاوی اطلاعات مفید و مرتبط هستند برای خلاصه نهایی انتخاب می شوند. به منظور شناسایی این جملات الگوریتم های متفاوتی وجود دارند که عملکرد و خلاصه ایجاد شده از هرکدام بر اساس نوع متن و اندازه خلاصه مورد نیاز متفاوت است. در این مقاله روشی با نام Sa-TRB ارائه شده است، که برگرفته از دو الگوریتم TextRank و BERT بوده و علاوه بر استفاده از این دو روش از اشتراک جملات ایجاد شده سایر الگوریتم ها نیز بهره می برد تا دقت بالایی در انتخاب جملات خلاصه نهایی داشته باشد. مهمترین معیار برای ارزیابی عملکرد الگوریتم ها کیفیت خلاصه نهایی آنهاست، چنانکه هر چقدر خلاصه نهایی ایجاد شده توسط این الگوریتم ها به خلاصه ایجاد شده توسط انسان مشابه باشد، کیفیت خلاصه ایجاد شده بهتر است. برای به دست آوردن اندازه این تشابه از معیارهای روش ROUGE استفاده می شود. در نهایت با انجام آزمایش هایی روی دیتاست cnn-dailymail با اندازه خلاصه های مختلف نشان داده می شود که روش پیشنهادی با افزایش اندازه خلاصه مورد نیاز با وجود کاهش در معیار فراخوانی دارای دقت، امتیاز و در نتیجه کیفیت بالاتر خلاصه نهایی است، به طوری که در دو آزمایش آخر که نرخ فشردگی ۲۰ و ۲۵ درصد است، امتیاز روش پیشنهادی به ۲۴.۶۸ و ۲۳.۳۴ درصد رسیده است که تقریبا یک درصد از بهترین روش های آزمایش شده دیگر بهتر است.

کلیدواژه ها

TextRank, BERT, LSA, Sa-TRB, ؛ ROUGE

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.