راهکاری برای قطعه بندی بدون نظارت متن در زبان فارسی

  • سال انتشار: 1391
  • محل انتشار: همایش ملی علوم و مهندسی کامپیوتر
  • کد COI اختصاصی: NCCSE01_115
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1010
دانلود فایل این مقاله

نویسندگان

سلمان مختارزاده شهرکی

دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر

مهدی صادق زاده

عضو هیئت علمی دانشگاه آزاد اسلامی واحد ماهشهر

روح الله دیانت

عضو هیئت علمی دانشگاه قم

چکیده

در این مقاله الگوریتمی برای پیدا کردن مرز بین موضوعات درون یک متن فارسی ارائه می شود که مبتنی بر انسجام کلمات و یک مدل گرافیکی با نام dotplot می باشد . سپس تغییراتی روی این الگوریتم اعمال کرده و میزان کارایی آن را افزایش داده و میانگین صحت را به مرز حدود 70 درصد می رسانیم .از طریق مشاهده نمودار و تفکیک دستی مرزهای موجود در نمودار می توان این الگوریتم را بصورت نیمه خودکار، و بااستفاده از فرمولی که در ادامه گفته می شود می توان این الگوریتم را تماماً خودکار اجرا نمود.

کلیدواژه ها

قطعه بندی متن ، اسناد فارسی ، بازیابی اطلاعات

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.