A New Segmentation Method for Persian/Arabic OCR Based on Baseline Processing

  • سال انتشار: 1388
  • محل انتشار: مجله مهندسی برق مجلسی، دوره: 3، شماره: 3
  • کد COI اختصاصی: JR_MJEE-3-3_006
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 72
دانلود فایل این مقاله

نویسندگان

Mahboubeh Shamsi

Islamic Azad University Bardsir

Reza Rasouli

Azad Islamic University Bardsir

Soudeh Shadravan

Azad Islamic University Bardsir

چکیده

One of the most important stages in Character Recognition Systems is “Segmentation”, because any mistake will affect to all other tasks, especially to character recognition. This operation is more complex in Persian/Arabic writing than other Latin writing like English, and there has been an ongoing research on it. Other algorithms, that has been used as base as proposed algorithm, show ۸۵% accuracy. In this paper, a new improved method has been presented by analyzing the visual features of the Persian/Arabic language. The proposed algorithm is able to segment existing fonts up to ۹۸.۵% accuracy or even ۱۰۰% on some cases. The remaining error could be refined by applying a good character recognition technique and a precise vocabulary.

کلیدواژه ها

image processing, Persian OCR, Azad Islamic University Bardsir, fa, Segmentation, recognition, smoothing, Arabic OCR, Baseline Method

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.