توصیف محتوای تصاویر به صورت خودکار با بکارگیری شبکه عصبی کپسولی و روش تعبیه سازی ELMo

  • سال انتشار: 1402
  • محل انتشار: مجله ماشین بینایی و پردازش تصویر، دوره: 10، شماره: 1
  • کد COI اختصاصی: JR_JMVIP-10-1_006
  • زبان مقاله: فارسی
  • تعداد مشاهده: 351
دانلود فایل این مقاله

نویسندگان

شیما جوانمردی

دانشجوی مهندسی دکتری هوش مصنوعی، دانشگاه یزد

علی محمد لطیف

دانشکده مهندسی کامپیوتر، دانشگاه یزد

محمدتقی صادقی

دانشکده مهندسی برق، دانشگاه یزد

چکیده

توصیف­ محتوای تصویر به­ صورت خودکار توسط ماشین یک مشکل چالش ­برانگیز در بینایی کامپیوتر است و هدف آن تولید توضیحات قابل درک توسط کامپیوتر برای تصاویر می­باشد. استفاده از شبکه ­های عصبی پیچشی (CNN) نقش مهمی در زمینه  توصیف تصاویر ایفا کرده است. با این حال، در طول فرآیند تولید توصیف های مرتبط با تصویر دو چالش عمده برای CNN وجود دارد که عبارتند از: عدم توجه آنها به روابط و ساختارهای سلسله مراتبی مکانی بین اشیای درون تصویر، و عدم ثبات در مقابل تغییرات چرخشی تصاویر. به ­منظور رفع این چالش­ ها این مقاله با بهره­ گیری از یک شبکه کپسولی بهبود یافته، به توصیف محتوای تصویر با استفاده از پردازش زبان­ طبیعی می­پردازد. شبکه کپسولی با درنظر گرفتن موقعیت مکانی اشیای درون تصویر نسبت به یکدیگر،  اطلاعات مربوط به محتوای تصویر را ارائه می­دهد. یک کپسول شامل مجموعه ای از نورون ها است که پارامترهای وضعیت اشیا درون تصویر مانند سایز، جهت، مقیاس و روابط اشیا نسبت به هم را در نظر می گیرند. این کپسول ­ها تمرکز ویژه­ای بر استخراج ویژگی­ های معنادار برای استفاده در فرآیند تولید توضیحات مرتبط برای مجموعه­ ای معین از تصاویر دارند. آزمایش های کیفی روی مجموعه داده های MS-COCO با بهره­ گیری از شبکه کپسولی و روش تعبیه ­سازی ELMo، منجر به بهبود ۲ تا ۵ درصدی معیارهای ارزیابی شده، در مقایسه با مدل های زیرنویس تصویر موجود شده است.

کلیدواژه ها

توصیف تصاویر, یادگیری عمیق, شبکه کپسولی, شبکه عصبی پیچشی, پردازش زبان طبیعی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.