مروری بر تکنیک ها و الگوریتم های پاسخگویی به پرسش های بصری

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 306

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

STCONF07_192

تاریخ نمایه سازی: 20 مرداد 1403

چکیده مقاله:

پاسخ به سوالات تصویری (VQA) یک کار چندوجهی است که شامل بینایی رایانه (CV) و پردازش زبان طبیعی (NLP) است . با توجه به یک تصویر و یک سوال آزاد و باز به زبان طبیعی ، هدف سیستم VQA ارائه پاسخ دقیق به زبان طبیعی در مورد تصویر داده شده است . این کار بسیار چالش برانگیز است زیرا به درک همزمان اطلاعات بصری و متنی نیاز دارد. اخرا،ی مکانیسم توجه به طور گسترده ای برای ایجاد پاسخ صحیح با گرفتن وابستگی های سراسری استفاده می شود. علاوه بر این ، اکثر رویکردهای اخیر VQA از ضرب نقطه ای برای محاسبه توجه درون وجهی و بین وجهی بین ویژگی های بصری و زبانی استفاده می کنند. این مقاله یک نمای کلی انتزاعی از تحقیقات پیشرفته در مورد VQA، از جمله VQA مبتنی بر نمودار دانش و ترکیب چند وجهی با شبکه های عصبی بازگشتی ارائه می کند. این مقاله همچنین چالش ها و جهت گیری آینده در این زمینه را برجسته می کند.

کلیدواژه ها:

نویسندگان

فاطمه قاسمی نژاد رائینی

دانشجوی ارشد مهندسی کامپیوتر دانشگاه شهید باهنر کرمان

مصطفی قاضی زاده احسائی

استاد گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه شهید باهنر کرمان