ارتقاء و اصلاح فرایندهای رایج در بازشناسی نوری حروف متون فارسی با بکارگیری ویژگی های خط فارسی و الگوریتم انتقال فضا
محل انتشار: دوماهنامه جستارهای زبانی، دوره: 14، شماره: 2
سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 317
فایل این مقاله در 38 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_LRR-14-2_011
تاریخ نمایه سازی: 28 خرداد 1402
چکیده مقاله:
از آنجا که فنآوری بازشناسی نوری حروف اصالتا بر پایه ویژگی های خطی لاتین بنا شده است، تقریبا کلیه الگوریتم ها و مراحل مورد استفاده در نظام های رایج بازشناسی حروف فارسی نیز بر اساس همان ساختار و ویژگی های خطوط لاتین گسترش یافته اند. بکارگیری ابزار و ویژگی های خطوط لاتین در طراحی نظام های فارسی محور، نه تنها در نهایت به انجام بازشناسی صحیح حروف فارسی منجر نگردیده است، بلکه باعث سردرگمی همزمان نرم افزار و کاربر فارسی زبان نیز شده است. از اینرو، در اینجا، پس از مقدمه ای کوتاه پیرامون اهمیت خط و زبان در حوزه فن آوری اطلاعات به سیر تحول خط فارسی در دوره های مختلف و شرح ویژگی های این خط و تفاوت های آن با خطوط دیگر پرداخته شده است و عناصر شکلی این خط، با توجه به کاربرد و اهمیت آنها در تعامل کاربر با نرم افزارهای بازشناسی نوری متون فارسی، طیقه بندی گردیده است. در این بخش، با توصیف و تحلیل مراحل بازشناسی حروف بر اساس ویژگی های خط فارسی و شرح تفاوتهای آن با گونه های لاتین محور موجود، چهره ای متفاوت از دستگاه خط فارسی به هنگام کار با رایانه ها و به ویژه در سیستم های بازشناسی نوری حروف عرضه می شود بطوری که مخاطب عملا قابلیت و ظرفیت های دستگاه خط فارسی در هماوردی با دستگاه ساده خط لاتین را مشاهده خواهد نمود. با اتکا به همین ویژگی ها، در جهت ارتقاء و اصلاح الگوریتم های رایج در بازشناسی نوری حروف فارسی، تسهیل بکارگیری الگوها، و تعدیل حجم پایگاه داده ها، از فرایند انتقال هندسی فضای دو بعدی به تک بعدی نیز بهره جسته ایم.
کلیدواژه ها:
Optical character recognition ، OCR ، Computational linguistics ، Scribal features ، Persian writing system ، بازشناسی نوری حروف ، ا.سی.آر ، الگوریتم انتقال فضا نظام ، نگارشی زبان فارسی ، ویژگی های خطی فارسی
نویسندگان
آرش زارعیان
PhD. Candidate in Linguistics, Payame Noor University, P.O. Box ۱۹۳۹۵-۳۶۹۷, Tehran, Iran
طیبه موسوی میانگاه
Associate Professor in Linguistics, Payame Noor University, P.O. Box ۱۹۳۹۵-۳۶۹۷, Tehran, Iran
بلقیس روشن
Professor in Linguistics, Payam Noor University, P.O. Box ۱۹۳۹۵-۳۶۹۷, Tehran, Iran
سید مصطفی فخر احمد
Associate Professor in Computer, Shiraz University, Shiraz, Iran
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :