بازشناسی برون خط زیرکلمات فارسی چاپی براساس ترکیب ویژگی های موجک ، سراسری و محلی با استفاده از فرهنگ لغت موقعیت زیرکلمات

  • سال انتشار: 1400
  • محل انتشار: هشتمین کنگره ملی تازه های مهندسی برق و کامپیوتر ایران
  • کد COI اختصاصی: COMCONF08_158
  • زبان مقاله: فارسی
  • تعداد مشاهده: 204
دانلود فایل این مقاله

نویسندگان

سارا خسروی

عضو هیات علمی گروه کامپیوتر، دانشکده فنی و مهندسی، دانشگاه پیام نور، تهران، ایران.

چکیده

خلاصه در این مقاله به ارائه روشی جدید برای بازشناسی برون خط زیرکلمات فارسی چاپی، براساس ترکیب ویژگی های موجک، سراسری و محلی، با استفاده از الگوریتم ماشین بردارپشتیبان (SVM) می پردازیم. در روش پیشنهادی، پس از انجام پیش پردازش برروی تصاویر زیرکلمات در ۴ سایز و ۴ فونت، مرحله استخراج ویژگی با استفاده از ترکیب ویژگی های موجک، سراسری و محلی صورت گرفته است. در بخش طبقه بندی یک فرهنگ لغت از موقعیت احتمالی زیرکلمات در کلمات پایگاه داده تشکیل داده سپس و از الگوریتم SVM چند کلاسه با درنظر گرفتن موقعیت زیرکلمه در کلمه ورودی، استفاده می کنیم. پایگاه داده مورد استفاده در این مقاله، شامل تعداد ۵۸۴۲۱ زیرکلمه فارسی در چهار اندازه و چهار فونت مختلف است که میانگین نرخ بازشناسی الگوریتم پیشنهادی ۹۸.۷۵% بدست آمد. نتایج پیاده سازی نشان می دهد که ترکیب ویژگی ها با هم، در کنار استفاده از طبقه بند قدرتمند SVM با درنظر گرفتن فرهنگ لغت موقعیت زیرکلمات، باعث افزایش دقت و قابلیت اطمینان در روش بازشناسی گردیده است.

کلیدواژه ها

کلمات کلیدی: بازشناسی زیرکلمات فارسی، استخراج ویژگی، فرهنگ لغت موقعیت زیرکلمات، ویژگی های موجک، ویژگی های سراسری و محلی، الگوریتم ماشین بردار پشتیبان.

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.