CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

یک روش پیش پردازش کارآمد و قوی برای متون فارسی

عنوان مقاله: یک روش پیش پردازش کارآمد و قوی برای متون فارسی
شناسه ملی مقاله: ICEE21_247
منتشر شده در بیست و یکمین کنفرانس مهندسی برق ایران در سال 1392
مشخصات نویسندگان مقاله:

نوید شیدایی - دانشگاه صنعتی اصفهان
محمدحسین سرایی
آذر شاهقلیان

خلاصه مقاله:
دراین مقاله به طراحی و ارایه الگوریتمی درزمینه ریشه یابی کلمات درمتون فارسی پرداخته شده است این روش که برمبنای ساختار ریخت شناسی زبان فارسی عمل می کند ازجداول جستجوو برای ریشه یابی کلمات بهره گرفته است روال کار به این صورت است که دراغاز کلمات متن جداسازی شده و کاراکتر ها و کلمات زائد آن حذف میشوند ازانجایی که تعداد افعال کاربردی زبان فارسی محدود است ابتدا با فرض اینکه کلمات فعل هستند ریشه یابی می شوند درصورتی پس ازاتمام ریشه یابی کلمه فعل تشخیص داده شود مصدر آنذخیره میشود درغیر این صورت روال ریشه یابی کلمات غیرفعل اجرا خواهد شد نتایج ازمایشات ما روی مجموعه ای ازاسناد فارسی نشان دهنده نتایج قابل قبولی برای الگوریتم ارایه شده است

کلمات کلیدی:
ریشه یابی، زبان فارسی، پیش پردازش زبان طبیعی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/208304/