سیستم خلاصه سازی خودکار متون فارسی

  • سال انتشار: 1385
  • محل انتشار: دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران
  • کد COI اختصاصی: ACCSI12_377
  • زبان مقاله: فارسی
  • تعداد مشاهده: 4253
دانلود فایل این مقاله

نویسندگان

زهره کریمی

دانشگاه شهید بهشتی، دانشکده مهندسی برق و کامپیوتر

مهرنوش شمس فرد

عضو هیئت علمی، دانشگاه شهید بهشتی، دانشکده مهندسی برق و کامپیوتر

چکیده

< p> فرآیند فشرده سازی یک منبع به صورتی که حاصل حاوی اطلاعات مهم آن باشد را خلاصه سازی گویند. با توجه به گسترش روزافزون حجم اطلاعات رقمی، نیاز به خلاصه سازی متون بیش از پیش مطرح میشود. خلاصه های رقمی بسته به پارامترها ی مختلفی بر ای نوع ورودی، خروجی و هدف به انواع متفاوتی دسته بندی میشوند. در این مقاله پس از معرفی اجمالی خلاصه سازی، انواع آن و نمونه هایی از سیستمهای خلاصه ساز، به تشریح روشی ترکیبی جهت خلاصه سازی خودکار متون فارسی میپردازیم. در این روش جمله های خلاصه از میان مهمترین جمله های متن ورودی انتخاب میشوند. کل روش به صورت نحوی/معنایی عمل میکند و ترکیب ی از دو روش زنجیره ی لغوی و خلاصه سازی مبتنی بر گراف است که از پنج معیار میزان شباهت جملات با یکدیگر، شباهت جملات با کلمات کلیدی کاربر، شباهت جملات با عنوان ، تعداد جملات مشابه هر جمله و وجود کلمات اشاره در جمله برای امتیازدهی به جملات استفاده نموده و جملات با بیشترین امتیاز را به عنوان خروجی سیستم انتخاب می کند. سیستم پیاده سازی شده براساس این روش با خلاصه های مرجعی که به صورت دستی تهیه شده اند، مورد مقایسه قرار گرفته و نتایج این ارزیابی در انتهای مقاله آورده شده است.< /p>

کلیدواژه ها

خلاصهسازی، چکیدهسازی، استخراج جملات کلیدی، پردازش زبان طبیعی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.