توصیف خودکار تصویر مبتنی بر شبکه های عصبی کانولوشنی با بهره گیری از مکانیزم توجه
محل انتشار: فصلنامه مدل سازی در مهندسی، دوره: 23، شماره: 82
سال انتشار: 1404
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 40
فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JME-23-82_002
تاریخ نمایه سازی: 26 فروردین 1405
چکیده مقاله:
به فرایند اختصاص دادن توضیحات یا شرح متنی به تصاویر یا عکس ها توصیف تصویر اطلاق می شود. برای توصیف تصویر ابتدا لازم است که اشیا درون تصویر، ویژگی این اشیا و ارتباط میان آنان به درستی تشخیص داده شود و سپس جملاتی که از نظر گرامری و معنایی درست هستند، تولید شوند. در این تحقیق از معماری رمزگذار-رمزگشا جهت تولید توصیفات متنی استفاده شده است. مدل پیشنهادی شامل یک شبکهResNet به عنوان رمزگذار جهت استخراج ویژگی های بصری تصویر است. در بخش رمزگشا شبکه کانولوشنی با چهار لایه جهت تولید توصیفات در مدل زبانی ارایه شده است. برای نشان دادن موثرتر ویژگی های حاصل از تصویر و درک روابط بین اشیا از یک ساز و کارتوجه استفاده شده است که قابلیت توجه به تصویر ورودی و مدل زبانی را دارد. کارایی مدل پیشنهادی بر روی مجموعه داده های MSCOCO و Flickr مورد ارزیابی قرار گرفته است. نتایج آزمایشگاهی نشان می دهد کارایی معماری پیشنهادی بر اساس معیارBleu۱ و Meteor نسبت به پژوهش های جدید برتری دارد درحالیکه زمان آموزش مدل پیشنهادی در مقایسه با پژوهشهای جدید کاهش یافته است.
کلیدواژه ها:
نویسندگان
فاطمه امیری
گروه مهندسی کامپیوتر، دانشگاه صنعتی همدان، همدان، ایران
فرشته احمدی
گروه مهندسی کامپیوتر، دانشگاه صنعتی همدان، همدان، ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :