بهبود توصیف تصویر با استفاده از LSTM دوطرفه

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 1,352

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICMVIP10_012

تاریخ نمایه سازی: 2 تیر 1397

چکیده مقاله:

در این مقاله روشی جهت توصیف تصویر ارایهشده است. در این روش تصویر اولیه به یک شبکه عصبیکانولوشن ناحیه ای (RCNN) به عنوان ورودی داده می شود، این شبکه عصبی اشیاء موجود در تصویر را استخراج می-کند. سپس با استفاده از LSTM دو طرفه جملات متناسب با اشیاء تصویر را یافته و ارتباط آنها در قالب یک جملهتوصیف می شوند. از آنجایی که خروجی شبکه عصبی کانولوشن ناحیه ای به صورت پیکسلی و بخش هایی ازتصویر است و خروجی LSTM دوطرفه نیز ترتیبی از کلمات است. برای برقراری ارتباط و پیداکردن امتیاز مناسب برایتصویر و جمله متناظر با آن از ضرب داخلی استفاده شد وامتیازی برای تصویر-جمله بدست آمد که نشان دهندهمیزان تناسب تصویر و جمله توصیفی مربوط به آن می باشد. نتایج بدست آمده بر روی دو مجموعه داده Flickr8K و Flickr30K محاسبه شدند که استفاده از LSTM دو طرفه نسبت به شبکه عصبی بازگشت کننده باعث توصیفمناسبتری از تصاویر شده است. در مقایسه با روشهایدیگر روش پیشنهادی کارایی بهتری در توصیف تصویرداشته است.

کلیدواژه ها:

، LSTM دوطرفه ، توصیف تصویر ، شبکه عصبی کانولوشن ناحیه ای (RCNN)

نویسندگان

وحید چهکندی

دانشگاه سمنان

محمدجواد فدایی اسلام

دانشگاه سمنان

فررین یغمایی

دانشگاه سمنان