طراحی و پیاده سازی سامانه خلاصه ساز خودکار و معنایی متون فارسی مبتنی بر رویکرد گراف وزن دار

  • سال انتشار: 1399
  • محل انتشار: ماهنامه پژوهش های معاصر در علوم و تحقیقات، دوره: 2، شماره: 10
  • کد COI اختصاصی: JR_JCRSR-2-10_003
  • زبان مقاله: فارسی
  • تعداد مشاهده: 297
دانلود فایل این مقاله

نویسندگان

سحر اسماعیلی شایان

دانش آموخته کارشناسی ارشد- دانشگاه الزهرا

چکیده

خلاصه سازی متون یکی از روش های استخراج اطلاعات مفید و مهم از حجم عظیم داده های متنی است که در اهدافی چونتحلیل داده های متنی به کار بسته می شود. طی سالیان متمادی، تکنیک های خلاصه سازی متن بسیاری توسعه داده شده اندکه برخی تنها به انتخاب جملات کوتاه و آوردن آنها در خلاصه بسنده کرده و برخی دیگر بدون توجه به همبستگی معناییجملات، آنها را گزینش و در خلاصه می آورند. تحلیل معنایی متون نیازمند روشهای استخراج خلاصه با رویکرد معنایی است.در این پژوهش، سامانه ی خلاصه ساز زبان فارسی با استفاده از توسعه و به کارگیری الگوریتم TextRank گوگل و با بهره-گیری از مدل سازی سند متنی به صورت گرافی که در آن جملات به صورت گره و ارتباط جملات به صورت یال های گراف ومیزان ارتباط معنایی میان جملات به صورت وزن هر یال مدل گردیده، توسعه داده شده است. نتایج پژوهش با بررسی ۱۱۴۶مقاله فارسی خلاصه شده توسط این سامانه، نشان داد که سامانه توسعه داده شده با اختصاص رتبه ی بالاتر به جملات حاملمعنای بیشتر و تهیه خلاصه نهایی از آنها، عملکرد خوبی در استخراج خلاصه معنایی از متون الکترونیکی فارسی دارد.

کلیدواژه ها

متن کاوی، خلاصه سازی خودکار، اسناد الکترونیک فارسی، گراف وزن دار

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.