تشخیص ساختار اسناد در تصاویر پیچیده برای استفاده در سیستم های نویسه خوان نوری فارسی

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 625

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICMVIP10_027

تاریخ نمایه سازی: 2 تیر 1397

چکیده مقاله:

در این مقاله، به ارایه یک روش پیشنهادی برایتشخیص ساختار اسناد، در تصاویر پیچیده اسناد اسکنشده فارسی ، برای استفاده در سیستم های نویسه خواننوری پرداخته شده است. هدف از مرحله تشخیص ساختاراسناد در سیستم های نویسه خوان نوری، تشخیص قسمت-های متنی از غیرمتنی است. عدم تشخیص قسمت هایمتنی در تصاویر اسناد پیچیده باعث کاهش دقت سیستم-های نویسه خوان نوری می شود. در روش پیشنهادی، باتحلیل و تخمین برخی از ویژگی های تصاویر اسناد، از جملهفاصله بین خطوط پس زمینه، ابتدا نواحی غیرمتنیتشخیص داده شده و از تصویر حذف می شوند، در ادامه باچند مرحله آغشته سازی، محدوده جمله ها و کلمه ها درتصویر اسناد مشخص میشوند. برای مقایسه و ارزشیابیروش پیشنهادی، بیست تصویر پیچیده از مجله های فارسیبه عنوان داده آزمون تهیه و از بخش تحلیل ساختار اسنادنویسه خوان نوری تسرکت به عنوان روش مرجع استفادهشده است. روش پیشنهادی با دقت 87,2 درصد و با 4,16درصد بهبود دقت نسبت به روش مرجع، توانست قسمت-های متنی و غیر متنی را تشخیص دهد.

نویسندگان

محسن میرزایی

دانشکده علوم و فنون نوین، دانشگاه تهران

هادی ویسی

دانشکده علوم و فنون نوین، دانشگاه تهران