پاسخ دهی خودکار به پرسش های مربوط به محتوای تصاویر به زبان فارسی با استفاده از تکنیک های مبتنی بر یادگیری عمیق

امیر شکری; علیرضا غلام نیا

پاسخ دهی خودکار به پرسش های مربوط به محتوای تصاویر به زبان فارسی با استفاده از تکنیک های مبتنی بر یادگیری عمیق

محل انتشار: هجدهمین کنفرانس ملی علوم و مهندسی کامپیوتر و فناوری اطلاعات

سال انتشار: 1401

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 564

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1623322

شناسه ملی سند علمی:

CECCONF18_030

تاریخ نمایه سازی: 27 اسفند 1401

چکیده مقاله:

امروزه پاسخ دهی خودکار به پرسش های مربوط به محتوای تصاویر (سیستم پرسش و پاسخ تصویری) کاربرد فراوانی دارد. درسیستم های پرسش و پاسخ تصوبری. یک تصویر و یک سوال متنی در مورد تصویر به عنوان ورودی در نظر گرفته می شود واین سیستم باید پاسخ صحیح به پرسش مطرح شده را پیش بینی کند. هدف اصلی در این سیستم ها بالا بودن دقت صحتپاسخ پیش بینی شده است. برای این منظور عوامل مختلفی از جمله انتخاب شبکه های عصبی مناسب جهت پردازشورودی ها و انتخاب مجموعه داده مناسب بسیار مهم است. همچنین استفاده از انواع مختلف سازوکار توجه در مدل می تواندباعث بهبود عملکرد کلی سیستم پرسش و پاسخ تصویری شود. تا به امروز پژوهش های اندکی در مورد سیستم های پرسش وپاسخ تصویری به زبان فارسی انجام شده است. از همین رو در این مقاله به معرفی یک سیستم پرسش و پاسخ تصویری بهزبان فارسی پرداختیم. در مدل پیشنهادی، ما از شبکه عصبی کانولوشنی با معماری ResNext جهت پردازش تصویراستفاده کردیم که برای اولین بار در سیستم پرسش و پاسخ تصویری استفاده شده است. برای پردازش متن ورودی نیز ازشبکه عصبی بازگشتی از نوع حافظه کوتاه مدت طولانی دوسویه استفاده کردیم. همچنین از دو نوع سازوکار توجه در مدلپیشنهادی استفاده شده است. نتیجه حاصل شده نشان می دهد که دقت صحت پاسخ پیش بینی شده در مدل پیشنهادی اینمقاله، بالاترین مقدار بدست آمده نسبت به نمونه های موجود به زبان فارسی است. جزئیات پیاده سازی و کدهای این مقالهدر لینک زیر موجود می باشد: https://github.com/amirshnll/persian-visual-question-answering

کلیدواژه ها:

سیستم پرسش و پاسخ تصویری ، شبکه عصبی کانولوشنی ، شبکه عصبی بازگشتی ، سازوکار توجه

نویسندگان

امیر شکری

دانش آموخته کارشناسی ارشد هوش مصنوعی، دانشگاه سمنان

علیرضا غلام نیا

دانشجو کارشناسی ارشد هوش مصنوعی، دانشگاه سمنان