استخراج جدول از اسناد تصویری با استفاده از RT-DETR۷۲: رویکردی مبتنی بر ترنسفورمر در زمان واقعی

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 89

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

INDEXCONF07_018

تاریخ نمایه سازی: 28 مهر 1404

چکیده مقاله:

استخراج جدول از اسناد تصویری یکی از وظایف کلیدی در حوزهی تحلیل اسناد و بازشناسی ساختارهای پیچیده ی سندی است. مدلهای مبتنی بر ترنسفورمر مانند (DETR DEtection Transformer به دلیل قابلیت مدلسازی وابستگیهای بلندمدت در سالهای اخیر مورد توجه ویژه ای قرار گرفته اند. با این حال، DETR با مشکلاتی همچون کندی، آموزش نیاز به منابع محاسباتی سنگین و دشواری در استقرار در محیطهای عملیاتی روبروست در این پژوهش ما به جای DETR از مدل RT-DETR۷۲ استفاده میکنیم که با بهینه سازیهای معماری و استراتژیهای یادگیری جدید امکان استخراج جدول را با دقت بالا و در زمان واقعی فراهم میکند. مدل پیشنهادی ما بر روی مجموعه داده های PubLayNet و ۲۰۱۹-ICDAR ارزیابی شده و نتایج تجربی نشان میدهند که RT-DETR۷۲ نسبت به DETR دارای سرعت پردازش بیشتر، سادگی در استقرار و دقت قابل قبول تری است.

نویسندگان

فاطمه زارع شهر آبادی

کارشناسی ارشد گروه مهندسی کامپیوتر، گرایش هوش مصنوعی و رباتیکز