مروری بر تکنیک ها و مجموعه داده های پاسخگویی به سوالات تصویری و معرفی بروزترین معماری های در حوزه پردازش متن

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 147

فایل این مقاله در 27 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ASEIS03_035

تاریخ نمایه سازی: 12 آبان 1403

چکیده مقاله:

پاسخگویی به سوالات تصویری (VQA) شاخه ای از یادگیری ماشین می باشد که هدف از آن بکاربردن الگوریتم های هوش مصنوعی برای حل مسائل بینایی ماشین و پردازش متن می باشد. تکنیک های موثر برای پاسخگویی به سوالات تصویری مبتنی بر روش ها و معماری های پردازش تصویر و پردازش متن می باشند. از آنجا که VQA مبتنی بر دو شاخهپرکاربرد از هوش مصنوعی میباشد، انتظار می رود که این موضوع تحقیقاتی در آینده از اهمیت ویژه ای برخوردار شود. در این مقاله به مطالعه جامع این شاخه از یادگیری ماشین می پردازیم. به طور مشخص، روش های برتر و رایج در این زمینه را به طور مفصل مرور می کنیم. همچنین دیتاست های که محققان برای پیشبرد این زمینه توسعه داده اند و بکار می برند را معرفی می کنیم. علاوه بر این روش ها و تکنیک های پردازش زبان طبیعی که در آینده ممکن است مورد توجه بیشتری قرار گیرند را بررسی می کنیم.

کلیدواژه ها:

پاسخگویی به سوالات تصویری ، پردازش زیبان طبیعی ، پردازش تصویر ، VQA

نویسندگان

فاطمه قاسمی نژاد

دانشجوی تحصیلات تکمیلی، دانشگاه شهید باهنر کرمان، کرمان

مصطفی قاضی زاده احسائی

استادیار، دانشگاه شهید باهنر کرمان، کرمان