ارائه روشی جهت ریشه یابی کلمات در زبان فارسی

  • سال انتشار: 1392
  • محل انتشار: همایش ملی مهندسی کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: NCCEB01_097
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1692
دانلود فایل این مقاله

نویسندگان

دانیا تمدن

دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد علوم و تحقیقات خوزستان،گروه مهندسی کامپیوتر،اهواز

محمدحسین یکتایی

استادیار،دانشگاه آزاد اسلامی واحد آبادان،گروه مهندسی کامپیوتر،اهواز

ماشالله عباسی دزفولی

دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد علوم و تحقیقات خوزستان،گروه مهندسی کامپیوتر،اهواز

چکیده

یکی از پیش‌نیازهای ضروری رسیدن به نرم‌افزارهای پردازش متن، الگوریتم‌های ریشه‌یابی هستند که به بررسی ساخت واژه لغات می‌پردازند. هدف نهایی الگوریتم‌های ریشه‌یابی حذف پیشوندها و پسوندهای کلمه و رسیدن به ریشه لغت است. در روش‌های پیشین مانند ریشه‌یاب جدولی، الگوریتم ریشه‌یاب تشکری و الگوریتم کراوتز برای زبان فارسی یک دیکشنری شامل ریشه لغات وجود دارد و در هر مرحله پس از حذف پیشوند و یا پسوند، رشته باقیمانده در دیکشنری جستجو می‌شود اما در روش ارائه شده در این مقاله نیازی به نگهداری دیکشنری از اسامی جامد نیست و تنها وندهای کلمات به سیستم معرفی می‌گردند. از سوی دیگر در بسیاری از موارد عمل ریشه‌یابی کلمات بدون درنظر گرفتن نوع کلمه انجام می‌شود که منجر به نتایج نادرست می‌شوند. جهت غلبه بر مشکلات مطرح شده، در این مقاله مدلی جهت ریشه‌یابی کلمات در زبان فارسی با درنظر نوع کلمه معرفی خواهد گردید. نتایج حاصل از آزمایشات انجام شده، نشان‌دهنده افزایش درصد درستی در ریشه‌یابی لغات در زبان فارسی با استفاده از روش پیشنهادی در مقایسه با سایر روش‌های ریشه‌یابی می‌باشد.

کلیدواژه ها

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.