شناسایی و بازشناسی متن از تصاویر در جهات مختلف با استفاده از چارچوب خط لوله جدید

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 178

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

BECE02_108

تاریخ نمایه سازی: 2 مرداد 1403

چکیده مقاله:

شناسایی و تشخیص خودکار متن (تشخیص یکپارچه متن) از تصاویر در زندگی واقعی، یک عنصر اصلی در مجموعه متنوعی از برنامه هایسیستم هوشمند از جمله سیستم های دستیار بینایی و اتومبیل رانی خودکار است .عناصر اصلی بسیاری از برنامه ها از جمله سیستم هایکمکی و دید کم کور و اتومبیل های خودران است.اجرای PVANET به دلیل استفاده از لایه Inception نتیجه بسیار خوبی را در بسیاری از برنامه ها کسب کرده است . بااین حال، درروشهای تشخیص متن صحنه واقعی، PVANET معمولا باید با دقت بیشتری طراحی شود تا استحکام محلی سازی متن را بهبود بخشد .در این مقاله از ساختار PVANET برای استخراج ویژگیهای دیداری سطح پایین استفاده میشود . همچنین از یک لایه اضافی برایبهبود استخراج ویژگی استفاده شده است . بلوک m.ReLU و لایه Inception بهینه شده اند تا حداکثر اطلاعات حیاتی را کشف کنند .مشاهده شده است که لایه های Inception (کانولوشن ۳ * ۳ یا کرنل های بزرگتر) می توانند متن متنوع با ابعاد مختلف را به طور موثرتراز زنجیره خطی از لایه های کانولوشنی شناسایی نمایند. در این مقاله از دو پایگاه داده مشهور ICDAR ۲۰۱۷ و ICDAR ۲۰۰۳ جهت بررسی نتایج استفاده گردیده است. نتایج شناسایی متن در هر دو پایگاه داده نشان میدهد که رویکرد پیشنهادی، عملکرد قابلملاحظه ای در بهبود شناسایی متن به دست می آورد.

کلیدواژه ها:

شناسایی و تشخیص خودکار متن ، متن صحنه واقعی ، استخراج ویژگیهای دیداری

نویسندگان

فاطمه نعیمی

گروه مهندسی برق، دانشگاه فنی و حرفه ای، تهران، ایران