ارائه روشی متفاوت در بخش بندی بدنه زیرکلمات فارسی
سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 268
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICTBC04_004
تاریخ نمایه سازی: 5 شهریور 1400
چکیده مقاله:
در سیستم های بازشناسی و بازیابی اسناد فارسی یکی از مهمترین چالش ها، بخش بندی بدنه کلمات است. در ساختارنوشتار فارسی با توجه به ساختار بهم پیوسته کلمات نیاز به یافتن محل دقیق اتصال حروف در روش های مبتنی بر جداسازیاست. در این پژوهش نگاهی متفاوت به ساختار نوشتار زبان فارسی ارائه شده است. در این روش نیازی به یافتن محل دقیقاتصال حروف نیست. برای این کار به جای بخش بندی بدنه زیرکلمات به حروف، بدنه به زیرحروف شکسته شده اند. برای اینکار ابتدا بخش هایی که صرفا نقش اتصال دهنده زیرحروف را داشته و تاثیری در ماهیت حرف نداشته اند مشخص و از بدنهحذف شده اند. بر این اساس شیوه متفاوتی در بخش بندی بدنه کلمات فارسی معرفی شده است. در این روش با توجه به عدمنیاز به تخمین نقطه انفصال، خطای ناشی از تشخیص غلط آن حذف شده است. با توجه به تعداد محدود دیکشنری تعریفشده برای زیرحروف نهایی، فرآیند تشخیص زیرحروف با خطای کمتر از ۱% انجام شده است.
کلیدواژه ها:
نویسندگان
زهرا بهمنی
عضو هیات علمی دانشگاه صنعتی خاتم الانبیاء بهبهان