ارائه روشی متفاوت در بخش بندی بدنه زیرکلمات فارسی

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 268

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICTBC04_004

تاریخ نمایه سازی: 5 شهریور 1400

چکیده مقاله:

در سیستم های بازشناسی و بازیابی اسناد فارسی یکی از مهمترین چالش ها، بخش بندی بدنه کلمات است. در ساختارنوشتار فارسی با توجه به ساختار بهم پیوسته کلمات نیاز به یافتن محل دقیق اتصال حروف در روش های مبتنی بر جداسازیاست. در این پژوهش نگاهی متفاوت به ساختار نوشتار زبان فارسی ارائه شده است. در این روش نیازی به یافتن محل دقیقاتصال حروف نیست. برای این کار به جای بخش بندی بدنه زیرکلمات به حروف، بدنه به زیرحروف شکسته شده اند. برای اینکار ابتدا بخش هایی که صرفا نقش اتصال دهنده زیرحروف را داشته و تاثیری در ماهیت حرف نداشته اند مشخص و از بدنهحذف شده اند. بر این اساس شیوه متفاوتی در بخش بندی بدنه کلمات فارسی معرفی شده است. در این روش با توجه به عدمنیاز به تخمین نقطه انفصال، خطای ناشی از تشخیص غلط آن حذف شده است. با توجه به تعداد محدود دیکشنری تعریفشده برای زیرحروف نهایی، فرآیند تشخیص زیرحروف با خطای کمتر از ۱% انجام شده است.

نویسندگان

زهرا بهمنی

عضو هیات علمی دانشگاه صنعتی خاتم الانبیاء بهبهان