A Transformer-Based Approach with Contextual Position Encoding for Robust Persian Text Recognition in the wild
محل انتشار: مجله هوش مصنوعی و داده کاوی، دوره: 12، شماره: 3
سال انتشار: 1403
نوع سند: مقاله ژورنالی
زبان: انگلیسی
مشاهده: 24
فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JADM-12-3_010
تاریخ نمایه سازی: 11 دی 1403
چکیده مقاله:
The Persian language presents unique challenges for scene text recognition due to its distinctive script. Despite advancements in AI, recognition in non-Latin scripts like Persian still faces difficulties. In this paper, we extend the vanilla transformer architecture to recognize arbitrary shapes of Persian text instances. We apply Contextual Position Encoding (CPE) to the baseline transformer architecture to improve the recognition of Persian scripts in wild images, especially for oriented and spaced characters. The CPE utilizes position information to generate contrastive data pairs that help better in capturing Persian characters written in a different direction. Moreover, we evaluate several state-of-the-art deep-learning models using our prepared challenging Persian scene text recognition dataset and develop a transformer-based architecture to enhance recognition accuracy. Our proposed scene text recognition architecture achieves superior word recognition accuracy compared to existing methods on a real-world Persian text dataset.
کلیدواژه ها:
نویسندگان
Zobeir Raisi
Electrical Engineering Department, Chabahar Maritime University, Chabahar, Iran.
Vali Mohammad Nazarzehi
Electrical Engineering Department, Chabahar Maritime University, Chabahar, Iran.
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :