بهبود توصیف تصویر با استفاده از LSTM دوطرفه
محل انتشار: دهمین کنفرانس بینایی ماشین و پردازش تصویر ایران
سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 1,486
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICMVIP10_012
تاریخ نمایه سازی: 2 تیر 1397
چکیده مقاله:
در این مقاله روشی جهت توصیف تصویر ارایهشده است. در این روش تصویر اولیه به یک شبکه عصبیکانولوشن ناحیه ای (RCNN) به عنوان ورودی داده می شود، این شبکه عصبی اشیاء موجود در تصویر را استخراج می-کند. سپس با استفاده از LSTM دو طرفه جملات متناسب با اشیاء تصویر را یافته و ارتباط آنها در قالب یک جملهتوصیف می شوند. از آنجایی که خروجی شبکه عصبی کانولوشن ناحیه ای به صورت پیکسلی و بخش هایی ازتصویر است و خروجی LSTM دوطرفه نیز ترتیبی از کلمات است. برای برقراری ارتباط و پیداکردن امتیاز مناسب برایتصویر و جمله متناظر با آن از ضرب داخلی استفاده شد وامتیازی برای تصویر-جمله بدست آمد که نشان دهندهمیزان تناسب تصویر و جمله توصیفی مربوط به آن می باشد. نتایج بدست آمده بر روی دو مجموعه داده Flickr8K و Flickr30K محاسبه شدند که استفاده از LSTM دو طرفه نسبت به شبکه عصبی بازگشت کننده باعث توصیفمناسبتری از تصاویر شده است. در مقایسه با روشهایدیگر روش پیشنهادی کارایی بهتری در توصیف تصویرداشته است.
کلیدواژه ها:
نویسندگان