مدلی جدید برپایه معماری کدگذار-کدگشا و سازوکار توجه برای خلاصه سازی چکیده ای خودکار متون

  • سال انتشار: 1400
  • محل انتشار: دوفصلنامه فناوری اطلاعات و ارتباطات ایران، دوره: 14، شماره: 51
  • کد COI اختصاصی: JR_AICTI-14-51_002
  • زبان مقاله: فارسی
  • تعداد مشاهده: 61
دانلود فایل این مقاله

نویسندگان

امیرمسعود رحمانی

دانشیار دانشکده مهندسی کامپی

چکیده

با گسترش وب و در دسترس قرار گرفتن حجم زیادی از اطلاعات در قالب اسناد متنی ، توسعه سیستم های خودکار خلاصه سازی متون به عنوان یکی از موضوعات مهم در پردازش زبان های طبیعی در مرکز توجه محققان قرار گرفته است. البته با معرفی روش های یادگیری عمیق در حوزه پردازش متن، خلاصه سازی متون نیز وارد فاز جدیدی از توسعه شده و در سال های اخیر نیز استخراج خلاصه چکیده ای از متن با پیشرفت قابل توجهی مواجه شده است. اما می توان ادعا کرد که تاکنون از همه ظرفیت شبکه های عمیق برای این هدف استفاده نشده است و نیاز به پیشرفت در این حوزه توامان با در نظر گرفتن ویژگی های شناختی همچنان احساس می شود. در این راستا، در این مقاله یک مدل دنباله ای مجهز به سازوکار توجه کمکی برای خلاصه سازی چکیده ای متون معرفی شده است که نه تنها از ترکیب ویژگی های زبانی و بردارهای تعبیه به عنوان ورودی مدل یادگیری بهره می برد بلکه برخلاف مطالعات پیشین که همواره از سازوکار توجه در بخش کد گذار استفاده می کردند، از سازوکار توجه کمکی در بخش کدگذار استفاده می کند. به کمک سازوکار توجه کمکی معرفی شده که از سازوکار ذهن انسان هنگام تولید خلاصه الهام می گیرد، بجای اینکه کل متن ورودی کدگذاری شود، تنها قسمت های مهم تر متن کدگذاری شده و در اختیار کدگشا برای تولید خلاصه قرار می گیرند. مدل پیشنهادی همچنین از یک سوئیچ به همراه یک حد آستانه در کدگشا برای غلبه بر مشکل با کلمات نادر بهره می برد. مدل پیشنهادی این مقاله روی دو مجموعه داده CNN/Daily Mail و DUC-۲۰۰۴ مورد آزمایش قرار گرفت. بر اساس نتایج حاصل از آزمایش ها و معیار ارزیابی ROUGE، مدل پیشنهادی از دقت بالاتری نسبت به سایر روش های موجود برای تولید خلاصه چکیده ای روی هر دو مجموعه داده برخوردار است.

کلیدواژه ها

یادگیری عمیق، خلاصه سازی چکیده ای، ، معماری کدگذار-کدگشا، سازوکار توجه کمکی، ویژگی های زبانی.

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.