FAUNet: A Fuzzy-Attention U-Net for Diffusion-Based Persian Text Image Super-Resolution

سال انتشار: 1405
نوع سند: مقاله ژورنالی
زبان: انگلیسی
مشاهده: 20

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_IJFS-23-4_004

تاریخ نمایه سازی: 14 تیر 1405

چکیده مقاله:

The accurate enhancement of text images is a critical challenge in computer vision, particularly for languages such as Persian that exhibit complex writing structures, cursive connections, and fine-grained diacritical marks. Traditional super-resolution approaches often fail to preserve these delicate textual details. Here, diffusion model is adopted for text image super-resolution. The U-Net framework of this method is enhanced by incorporating fuzzy logic and attention mechanism (named FAUNet) to address mentioned problems. At the bottleneck of the network, a fuzzy layer is employed to softly model uncertainties and boundary variations, while a spatial channel attention block adaptively emphasizes crucial regions of the image. Together, these components strengthen the network’s capacity to capture structural dependencies and semantic details essential for text clarity. The proposed model is rigorously evaluated on two large-scale Persian text datasets: IR-LPR that comprising vehicle license plate images, and IDPL-PFOD۲ that is a dataset of printed Persian text. Experimental results show that FAUNet outperforms state-of-the-art methods achieving improvements in PSNR, SSIM, and MS-SSIM metrics. These improvements not only contribute to higher visual quality but also hold strong potential for downstream applications such as optical character recognition (OCR), license plate recognition, and digital document restoration in low-quality imaging conditions.

نویسندگان

Mahsham Kushki

Graduate university of advanced technology

Esmat Rashedi

Graduate university of advanced technology

Elham Shabaninia

Graduate university of advanced technology

Mehdi Kamandar

Graduate university of advanced technology

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • A. Afkari-Fahandari, F. Asadi-Zeydabadi, E. Shabaninia, H. Nezamabadi-Pour, Enhancing Farsi ...
  • ۴۸۵۵۰/arXiv.۱۸۰۹.۱۱۰۹۶[۵] W. Chao, J. Zhao, F. Duan, G. Wang, et ...
  • C. Dong, C. C. Loy, X. Tang, Accelerating the super-resolution ...
  • org/۱۰.۴۸۵۵۰/arXiv.۲۵۰۴.۰۳۷۳۸[۱۶] R. Keys, Cubic convolution interpolation for digital image processing, ...
  • T. R. Khalifa, X. Yu, X. Zhong, Z. Wu, Indirect ...
  • https://doi.org/۱۰.۱۱۰۹/TCYB.۲۰۲۵.۳۵۹۱۵۵۵[۱۹] E. Khodadadi, H. R. Kanan, Which super-resolution algorithm is ...
  • org/۱۰.۱۱۰۹/PRIA.۲۰۱۵.۷۱۶۱۶۱۷[۲۰] D. P. Kingma, J. Ba, Adam: A method for ...
  • ۱۱۰۹/CVPR.۲۰۱۷.۱۹[۲۳] H. Li, et al., SRDiff: Single image super-resolution with ...
  • org/۱۰.۱۱۰۹/ICSPIS۴۸۸۷۲.۲۰۱۹.۹۰۶۶۱۰۴[۲۷] B. B. Moser, S. Frolov, F. Raue, S. Palacio, ...
  • https://doi.org/۱۰.۱۱۰۹/WACV۶۱۰۴۱.۲۰۲۵.۰۰۰۵۴[۲۸] B. B. Moser, A. Shanbhag, F. Raue, S. Frolov, ...
  • https://doi.org/۱۰.۱۱۰۹/TNNLS.۲۰۲۴.۳۴۷۶۶۷۱[۲۹] J. Nam, H. Kim, D. Lee, S. Jin, S. ...
  • ۱۱۰۹/TPAMI.۲۰۲۲.۳۲۰۴۴۶۱[۳۴] A. Sharafian, A. Ali, I. Ullah, T. R. Khalifa, ...
  • https://doi.org/۱۰.۱۱۰۹/CVPR.۲۰۱۶.۲۰۷[۳۶] J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, S. Ganguli, Deep ...
  • Z. Wang, J. Chen, S. C. Hoi, Deep learning for ...
  • https://doi.org/۱۰.۱۱۰۹/TGRS.۲۰۲۳.۳۳۴۱۴۳۷[۴۴] Y. Xue, K. Chen, F. Neri, Differentiable architecture search ...
  • نمایش کامل مراجع