ارائه یک ریشهیاب جدید فارسی مبتنیبر تنوع جانشینی

  • سال انتشار: 1394
  • محل انتشار: کنفرانس بین المللی پژوهش در مهندسی، علوم و تکنولوژی
  • کد COI اختصاصی: RSTCONF01_454
  • زبان مقاله: فارسی
  • تعداد مشاهده: 516
دانلود فایل این مقاله

نویسندگان

سحر ارهفت

کارشناسی ارشد هوش مصنوعی، گروه کامپیوتر، دانشکده مهندسی، دانشگاه شهید چمران

بیتا شادگار

استادیار، دکترای نرمافزار، گروه کامپیوتر، دانشکده مهندسی، دانشگاه شهید چمران

منوچهر تشکری

استادیار، دکترای زبان و ادبیات فارسی،گروه ادبیات، دانشکده ادبیات، دانشگاه شهید چمران

چکیده

ریشهیابی، تبدیل شکل های گوناگون کلمه به یک جوهره مشترک است که آن جوهره را ریشه نامند. ریشهیابی یکی از مباحث مهم در پردازش زبان طبیعی است که بهطور گسترده در سیستمهای بازیابی اطلاعات، ترجمه ماشین، دستهبندی متن، خلاصهنویسی متن، شاخصگذاری، متنکاوی و غیره استفاده میشود. در این مقاله یک ریشهیاب جدید مبتنی بر الگوریتم تنوع جانشینی برای زبان فارسی ارائه میشود. این ریشهیاب دقت تکنیکهای آماری را با استفاده از یک فرهنگ لغت افزایش داده است. کارایی مدلپیشنهادی با مقایسه چند ریشهیاب فارسی دیگر روی یک مجموعه داده ارزیابی میشود. نتایج حاکی از افزایش دقت روش آماری پیشنهادی نسبت به ریشه یابهای دیگر است

کلیدواژه ها

ریشهیابی، پردازش زبان طبیعی، تنوع جانشینی، زبان فارسی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.