ساخت مجموعه داده تصاویر برای تشخیص و بازشناسی متن در تصاویر

مجتبی مازوچی

ساخت مجموعه داده تصاویر برای تشخیص و بازشناسی متن در تصاویر

محل انتشار: دوفصلنامه فناوری اطلاعات و ارتباطات ایران، دوره: 14، شماره: 53

سال انتشار: 1402

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 109

فایل این مقاله در 18 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > یادگیری عمیق

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1858827

شناسه ملی سند علمی:

JR_AICTI-14-53_006

تاریخ نمایه سازی: 29 آذر 1402

چکیده مقاله:

تشخیص متن در تصاویر از مهم ترین منابع تحلیل محتوای تصاویر است. گرچه در زبان هایی همچون انگلیسی و چینی، تحقیقاتی در زمینه تشخیص و بازشناسی متن و ارائه مدله ای انتها به انتها (مدل هایی که تشخیص و بازشناسی در یک مدل واحد ارائه می شود) مبتنی بر یادگیری عمیق انجام شده است، اما برای زبان فارسی مانعی بسیار جدی برای توسعه چنین مدلهایی وجود دارد. این مانع، نبود مجموعه داده آموزشی با تعداد بالا برای مدلهای مبتنی بر یادگیری عمیق است. در این مقاله، ما ابزارهای لازم برای ساخت مجموعه داده تصاویر متن منظره با پارامترهایی همچون رنگ، اندازه، فونت و چرخش متن طراحی و ایجاد می کنیم. از این ابزارها برای تامین داده بزرگ و متنوع برای آموزش مدل های مبتنی بر یادگیری عمیق استفاده می شود. به کمک این ابزارها و تنوع تصاویر ساخته شده، مدل ها به نوع خاصی از این پارامترها وابسته نمی شوند و سبب جامعیت مدل ها می شود. ۷۶۰۳ تصویر متن منظره و ۳۹۶۶۰ تصویر کلمات بریده شده، ساخته شده است. مزیت روش ما نسبت به تصاویر واقعی، ساخت تصاویر به تعداد دلخواه و بدون نیاز به حاشیه نویسی دستی می باشد. طبق بررسی ما، این اولین مجموعه داده تصاویر متن منظره فارسی به صورت آزاد و با تعداد بالا است.

کلیدواژه ها:

تشخیص متن ، بازشناسی متن ، تصاویر متن منظره ، مجموعه داده متن منظره فارسی ، یادگیری عمیق

نویسندگان

مجتبی مازوچی

پژوهشگاه ارتباطات و فناوری اطلاعات