مروری بر تکنیک ها و الگوریتم های پاسخگویی به پرسش های بصری
سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 306
فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
STCONF07_192
تاریخ نمایه سازی: 20 مرداد 1403
چکیده مقاله:
پاسخ به سوالات تصویری (VQA) یک کار چندوجهی است که شامل بینایی رایانه (CV) و پردازش زبان طبیعی (NLP) است . با توجه به یک تصویر و یک سوال آزاد و باز به زبان طبیعی ، هدف سیستم VQA ارائه پاسخ دقیق به زبان طبیعی در مورد تصویر داده شده است . این کار بسیار چالش برانگیز است زیرا به درک همزمان اطلاعات بصری و متنی نیاز دارد. اخرا،ی مکانیسم توجه به طور گسترده ای برای ایجاد پاسخ صحیح با گرفتن وابستگی های سراسری استفاده می شود. علاوه بر این ، اکثر رویکردهای اخیر VQA از ضرب نقطه ای برای محاسبه توجه درون وجهی و بین وجهی بین ویژگی های بصری و زبانی استفاده می کنند. این مقاله یک نمای کلی انتزاعی از تحقیقات پیشرفته در مورد VQA، از جمله VQA مبتنی بر نمودار دانش و ترکیب چند وجهی با شبکه های عصبی بازگشتی ارائه می کند. این مقاله همچنین چالش ها و جهت گیری آینده در این زمینه را برجسته می کند.
کلیدواژه ها:
نویسندگان
فاطمه قاسمی نژاد رائینی
دانشجوی ارشد مهندسی کامپیوتر دانشگاه شهید باهنر کرمان
مصطفی قاضی زاده احسائی
استاد گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه شهید باهنر کرمان