توصیف خودکار تصویر با مکانیسم توجه و مدل زبان تکراری

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 761

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEITCONF04_041

تاریخ نمایه سازی: 13 تیر 1400

چکیده مقاله:

در مسائل کاربردی بینایی ماشین و فهم زبان ، نمایش دقیق تصویر از اهمیت بالایی برخوردار است. بیشتر سیستم های فعلی از ویژگیهای بصری و مفاهیم متنی به عنوان طرح کلی از تصویر استفاده می کنند. با این حال ، بازنمایی های کاملا استنباطی معمولا از این نظر نامطلوب هستند که از مولفه های جداگانه ای تشکیل شده اند و روابط بین آنها قابل محاسبه نیست علاوه بر این نمی توانند مفاهیم مهم تصویر را در توصیفات تولیدشده جای دهند . در این مقاله یک فرایند تکرار شونده جهت رسیدن به توصیف پیشنهاد شده است . ما تصاویر ورودی را با مجموعه ای از مناطق بصری و مفاهیم متنی متناظر که منعکس کننده مفاهیم معنایی خاص هستند، پردازش می کنیم . برای این منظور ، دو ماژول توجه را ایجاد می کنیم که به ترتیب با به روز رسانی متقابل ، ویژگی های بصری و مفاهیم متنی استخراج شده از تصویر را ادغام می کنند. خروجی دو ماژول قبل به مدل زبانی ارسال شده و این فرایند تکراری تا رسیدن به توصیف مطلوب ادامه می یابد . جهت انتخاب بهینه هایپرپارامترهای مدل ، از الگوریتم ژنتیک استفاده شده است . آزمایش ها بر روی مجموعه داده عظیم MS COCO انجام شده است. نتایج نشان میدهد که روش ما موثر است و بسیار سریع همگرا می شود . مدل پیشنهادی می تواند به طیف گسترده ای از مدل ها برای کاربردهای مربوط به تصویر و زبان تعمیم یابد.

نویسندگان

الهام حیدری

دانشجوی کارشناسی ارشد هوش مصنوعی ،

مرضیه عبدالملکی

دانشجوی کارشناسی ارشد هوش مصنوعی ،

علیرضا طاهری تجر

کارشناس ارشد برق ،

میرحسین دزفولیان

استادیار گروه کامپیوتر ،

محرم منصوری زاده

دانشیار گروه کامپیوتر ،