بهیود بازشناسی زیرحروف فارسی با تشخیص زیرحروف شاخص و ادغام زیرحروف مشابه

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 327

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICTBC04_007

تاریخ نمایه سازی: 5 شهریور 1400

چکیده مقاله:

یکی از رویکردهای بازشناسی کلمات فارسی رویکرد مبتنی بر جداسازی است. در این رویکرد سعی می شود بدنهزیرکلمه به حروف تشکیل دهنده آن بخش بندی شود. مهمترین چالش این رویکرد تشخیص نقطه انفصال است. در اینپژوهش به جای تشخیص نقطه انفصال، بخش های اتصال دهنده زیرحروف از بدنه زیرکلمات حذف شده و زیرحروف استخراجشده اند. در مرحله تشخیص زیرحروف به وسیله شبکه عصبی، برای کاهش تعداد کلاس ها برخی از حروف شاخص که تشخیصآنها از روی ویژگی های شکلی با خطای نزدیک به صفر انجام می شود از مجموعه زیرحروف جدا شده است. همچنینزیرحروفی که از لحاظ شکل ظاهری شبیه هستند با هم ادغام شده و به عنوان یک کلاس تشخیص در نظر گرفته شده اند.در نهایت زیرحروفی که با هم ادغام شده اند به وسیله یک شبکه عصبی جدا آموزش داده شده و از یکدیگر تفکیک می شوند.نتایج نشان می دهد که این روش بهبود زیادی در تشخیص زیرحروف ایجاد می کند.

کلیدواژه ها:

شبکه عصبی ، زیرحروف شاخص ، بازشناسی اسناد چاپی فارسی

نویسندگان

زهرا بهمنی

عضو هیات علمی دانشگاه صنعتی خاتم الانبیاء بهبهان