خلاصه سازی استخراجی متن با استقاده از مجموعه الگوریتم های خلاصه سازی و روش Sa-TRB

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 101

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_ABMIR-1-2_012

تاریخ نمایه سازی: 6 دی 1402

چکیده مقاله:

خلاصه سازی استخراجی متن یک تکنیک ضروری در پردازش زبان طبیعی است که با استخراج مهمترین جملات به تولید نسخه های فشرده از متن کمک می کند. در خلاصه سازی استخراجی جملاتی که حاوی اطلاعات مفید و مرتبط هستند برای خلاصه نهایی انتخاب می شوند. به منظور شناسایی این جملات الگوریتم های متفاوتی وجود دارند که عملکرد و خلاصه ایجاد شده از هرکدام بر اساس نوع متن و اندازه خلاصه مورد نیاز متفاوت است. در این مقاله روشی با نام Sa-TRB ارائه شده است، که برگرفته از دو الگوریتم TextRank و BERT بوده و علاوه بر استفاده از این دو روش از اشتراک جملات ایجاد شده سایر الگوریتم ها نیز بهره می برد تا دقت بالایی در انتخاب جملات خلاصه نهایی داشته باشد. مهمترین معیار برای ارزیابی عملکرد الگوریتم ها کیفیت خلاصه نهایی آنهاست، چنانکه هر چقدر خلاصه نهایی ایجاد شده توسط این الگوریتم ها به خلاصه ایجاد شده توسط انسان مشابه باشد، کیفیت خلاصه ایجاد شده بهتر است. برای به دست آوردن اندازه این تشابه از معیارهای روش ROUGE استفاده می شود. در نهایت با انجام آزمایش هایی روی دیتاست cnn-dailymail با اندازه خلاصه های مختلف نشان داده می شود که روش پیشنهادی با افزایش اندازه خلاصه مورد نیاز با وجود کاهش در معیار فراخوانی دارای دقت، امتیاز و در نتیجه کیفیت بالاتر خلاصه نهایی است، به طوری که در دو آزمایش آخر که نرخ فشردگی ۲۰ و ۲۵ درصد است، امتیاز روش پیشنهادی به ۲۴.۶۸ و ۲۳.۳۴ درصد رسیده است که تقریبا یک درصد از بهترین روش های آزمایش شده دیگر بهتر است.

کلیدواژه ها:

نویسندگان

ابوالفضل صدرالساداتی

دپارتمان فنی مهندسی دانشگاه تبریز - تبریز - ایران

محمدرضا فیضی درخشی

استاد گروه مهندسی کامپیوتر - دانشکده مهندسی برق و کامپیوتر دانشگاه تبریز- تبریز- ایران