خلاصه سازی متون فارسی به روش استخراجی با استفاده از گراف

  • سال انتشار: 1398
  • محل انتشار: پنجمین همایش ملی علوم و مهندسی دفاعی
  • کد COI اختصاصی: ECDS05_158
  • زبان مقاله: فارسی
  • تعداد مشاهده: 676
دانلود فایل این مقاله

نویسندگان

علیرضا صفایی

دانشجوی کارشناسی ارشد- دانشکده فناوری اطلاعات و ارتباطات - دانشگاه جامع امام حسین (ع)- تهران- ایران

محمدعلی جوادزاده

استادیار- دانشکده فناوری اطلاعات و ارتباطات - دانشگاه جامع امام حسین (ع)- تهران- ایران

چکیده

امروزه با افزایش حجم اسناد و اطلاعات متنی الکترونیکی امکان مطالعه و نگهداری آن مستلزم زمان و هزینه زیاد است، بنابراین باید بتوان مطالب مهم متون در اختیار مدیران قرار گیرد. روشهای گوناگونی برای خلاصه سازی متن وجود دارد که عموما از دو روش استخراجی و چکیدهای به این منظور استفاده میشود. در این مقاله ضمن برشمردن روشها و مجموعه های داده آماده برای زبان فارسی، به کمک نظریه گراف روشی استخراجی برای خلاصه سازی متون فارسی پیشنهاد شده است. در این روش پس از واکشی متن از مجموعه داده، جملات تفکیک شده و هر جمله به عنوان یک گره از گراف در نظر گرفته میشود. در ادامه ضمن پیش پردازش روی متن، مقدار ویژگی هر یال و گره ها محاسبه شده و بر این اساس گره ها رتبه بندی میشوند. خلاصه متن از بین گره های با امتیاز بالاتر ارائه میشود. در پایان ضمن پیاده سازی روش ارائه شده در زبان جاوا بر اساس معیارهای دقت، صحت و F-Measure روش ارائه شده مورد ارزیابی قرار گرفت که نشان از عملکرد مناسب آن دارد.

کلیدواژه ها

داده کاوی، متن کاوی، خلاصه سازی متون فارسی، یادگیری ماشین.

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.