استخراج دقیق متن از اسناد اسکن شده با استفاده از OCR مبتنی بر شبکه های عصبی

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 23

فایل این مقاله در 18 صفحه با فرمت PDF و WORD قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SETBCONF04_261

تاریخ نمایه سازی: 17 شهریور 1404

چکیده مقاله:

استخراج دقیق متن از اسناد اسکن شده یکی از چالش های مهم در پردازش اسناد دیجیتال است. پژوهش حاضر به توسعه یک سامانه OCR مبتنی بر شبکه های عصبی پرداخته است که با ترکیب شبکه های پیچشی (CNN)، معماری ترنسفورمر، تابع هزینه CTC و تکنیک افزایش داده، توانایی بازشناسی دقیق نویسه ها و کلمات را فراهم می کند. داده های پژوهش شامل مجموعه ای متنوع از اسناد چاپی، تایپ شده، نیمه دست نویس و تاریخی بودند که پس از پیش پردازش شامل باینری سازی، حذف نویز و تصحیح اعوجاج، برای آموزش مدل آماده شدند. نتایج این پژوهش نشان داد که مدل پیشنهادی در سطح کلی به دقت ۹۸.۳ درصد در سطح کاراکتر و ۹۴.۷ درصد در سطح کلمه دست یافته و نرخ خطای کلمه تنها ۵.۳ درصد بوده است. تحلیل تفکیکی بر حسب نوع سند مشخص کرد که بالاترین دقت در متون چاپی واضح حاصل شده و در اسناد دست نویس و آسیب دیده کاهش نسبی مشاهده می شود. آزمایش حذف اجزا نشان داد که افزایش داده، یادگیری انتقالی، ترنسفورمر و CTC هر یک نقش کلیدی در بهبود دقت دارند، در حالی که تحلیل نوع خطاها بیشترین مشکل را در جایگزینی کاراکترها نشان داد. این یافته ها حاکی از آن است که روش پیشنهادی می تواند تعادلی مناسب میان دقت، سرعت پردازش و انعطاف پذیری ایجاد کند و برای کاربردهایی مانند آرشیوسازی دیجیتال، پردازش اسناد اداری و پروژه های زبان شناسی مفید واقع شود. نتایج همچنین مسیر توسعه مدل های مقاوم تر و تعمیم پذیرتر برای استخراج متن از اسناد پیچیده را روشن می سازد.

نویسندگان

عرفان شکوری

دانشجوی دکتری تخصصی دانشگاه شاهد، رشته ی مهندسی برق؛ گرایش الکترونیک