معرفی یک الگوریتم ریشه یابی و لمیابی مبتنی بر قانون برای زبان فارسی

  • سال انتشار: 1394
  • محل انتشار: اولین همایش جویشگر بومی
  • کد COI اختصاصی: DIDRAS01_017
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1672
دانلود فایل این مقاله

نویسندگان

زینب رحیمی

گروه پردازش صوت زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران،

یاسر شکفته

گروه پردازش صوت زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران

چکیده

با توجه به ذات زایا و اشتقاق پذیر زبان فارسی و همپنین نیاز برنامه های کاربردی مختلف مرتبط با پردازش زبان طبیعی و بازیابی اطلاعات، ریشه یابی و لمیابی از مسایل مهم پیش پردازشی در پردازش زبان طبیعی فارسی به شمار می رود. در این راستا در این مقاله یک الگوریتم مناسب برای یافتن خودکار ریشه و لمای کلمات پیشنهاد شده است. این الگوریتم و ابزار پیاده سازی شده بر اساس آن، دارای چند حالت برای ریشه یابی و لمیابی انواع مختلف کلمات است که با روش مبتنی بر قانون و با استفاده از چندین منبع زبانی از جمله فهرستی از افعال زبان فارسی، جمع مکسر، واژگان زایای زبان فارسی و ... طراحی شده است. روال کلی انجام کار به این صورت است که ابتدا بررسی میشود که کلمه باید ریشهیابی شود یا خیر و در صورت لزوم الگوریتم اصلی اعمال میشود. برای لمیابی ابتدا برچسب اجزای کلام برای هر کلمه مشمول ریشه یابی تعیین میگردد و سپس اعمال قوانین صورت می گیرد. این امکان در ریشهیاب قرار داده شده که به تفکیک آرگومان، فعل ها، اسامی و صفت ها به تنهایی ریشه یابی شده و یا هر 3 مورد در متن ریشه یابی شوند. همچنین با توجه به بار پردازشی برچسب زن اجزای کلام و زمانبری روال، یک مد ریشهیابی سبک نیز در برنامه لحاظ شده است که در آن فقط با توجه به شکل ظاهری کلمات، قوانین تعیین شده و ریشه یابی انجام میگیرد. نکته مورد توجه، جامعیت در قوانین و استثنایات مورد پوشش و استفاده از منابع متنی و پیش پردازشی دقیق در الگوریتم پیشنهادی است. نتایج ارزیابی نشان دهنده عملکرد مناسب سیستم پیشنهادی در هر دو حالت ریشهیابی و لمیابی است.

کلیدواژه ها

ریشه یابی، لمیابی، برچسب اجزای کلام، واژگان زایا، پردازش زبان طبیعی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.