CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بهبود توصیف تصویر با استفاده از LSTM دوطرفه

عنوان مقاله: بهبود توصیف تصویر با استفاده از LSTM دوطرفه
شناسه ملی مقاله: ICMVIP10_012
منتشر شده در دهمین کنفرانس بینایی ماشین و پردازش تصویر ایران در سال 1396
مشخصات نویسندگان مقاله:

وحید چهکندی - دانشگاه سمنان
محمدجواد فدایی اسلام - دانشگاه سمنان
فررین یغمایی - دانشگاه سمنان

خلاصه مقاله:
در این مقاله روشی جهت توصیف تصویر ارایهشده است. در این روش تصویر اولیه به یک شبکه عصبیکانولوشن ناحیه ای (RCNN) به عنوان ورودی داده می شود، این شبکه عصبی اشیاء موجود در تصویر را استخراج می-کند. سپس با استفاده از LSTM دو طرفه جملات متناسب با اشیاء تصویر را یافته و ارتباط آنها در قالب یک جملهتوصیف می شوند. از آنجایی که خروجی شبکه عصبی کانولوشن ناحیه ای به صورت پیکسلی و بخش هایی ازتصویر است و خروجی LSTM دوطرفه نیز ترتیبی از کلمات است. برای برقراری ارتباط و پیداکردن امتیاز مناسب برایتصویر و جمله متناظر با آن از ضرب داخلی استفاده شد وامتیازی برای تصویر-جمله بدست آمد که نشان دهندهمیزان تناسب تصویر و جمله توصیفی مربوط به آن می باشد. نتایج بدست آمده بر روی دو مجموعه داده Flickr8K و Flickr30K محاسبه شدند که استفاده از LSTM دو طرفه نسبت به شبکه عصبی بازگشت کننده باعث توصیفمناسبتری از تصاویر شده است. در مقایسه با روشهایدیگر روش پیشنهادی کارایی بهتری در توصیف تصویرداشته است.

کلمات کلیدی:
؛LSTM دوطرفه، توصیف تصویر، شبکه عصبی کانولوشن ناحیه ای (RCNN)

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/741429/