توصیف خودکار تصویر مبتنی بر شبکه های عصبی کانولوشنی با بهره گیری از مکانیزم توجه

سال انتشار: 1404
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 40

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JME-23-82_002

تاریخ نمایه سازی: 26 فروردین 1405

چکیده مقاله:

به فرایند اختصاص دادن توضیحات یا شرح متنی به تصاویر یا عکس ها توصیف تصویر اطلاق می شود. برای توصیف تصویر ابتدا لازم است که اشیا درون تصویر، ویژگی این اشیا و ارتباط میان آنان به درستی تشخیص داده شود و سپس جملاتی که از نظر گرامری و معنایی درست هستند، تولید شوند. در این تحقیق از معماری رمزگذار-رمزگشا جهت تولید توصیفات متنی استفاده شده است. مدل پیشنهادی شامل یک شبکهResNet به عنوان رمزگذار جهت استخراج ویژگی های بصری تصویر است. در بخش رمزگشا شبکه کانولوشنی با چهار لایه جهت تولید توصیفات در مدل زبانی ارایه شده است. برای نشان دادن موثرتر ویژگی های حاصل از تصویر و درک روابط بین اشیا از یک ساز و کارتوجه استفاده شده است که قابلیت توجه به تصویر ورودی و مدل زبانی را دارد. کارایی مدل پیشنهادی بر روی مجموعه داده های MSCOCO و Flickr مورد ارزیابی قرار گرفته است. نتایج آزمایشگاهی نشان می دهد کارایی معماری پیشنهادی بر اساس معیارBleu۱ و Meteor نسبت به پژوهش های جدید برتری دارد درحالیکه زمان آموزش مدل پیشنهادی در مقایسه با پژوهشهای جدید کاهش یافته است.

نویسندگان

فاطمه امیری

گروه مهندسی کامپیوتر، دانشگاه صنعتی همدان، همدان، ایران

فرشته احمدی

گروه مهندسی کامپیوتر، دانشگاه صنعتی همدان، همدان، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Bernardi, Raffaella, Ruket Cakici, Desmond Elliott, Aykut Erdem, Erkut Erdem, ...
  • Bai, Shuang, and Shan An. "A survey on automatic image ...
  • Ordonez, Vicente, Girish Kulkarni, and Tamara Berg. "Im۲text: Describing images ...
  • Yang, Yezhou, Ching Teo, Hal Daumé III, and Yiannis Aloimonos. ...
  • Kumar, Akshi, and Shivali Goel. "A survey of evolution of ...
  • Mao, Junhua, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, ...
  • Xu, Kelvin, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, ...
  • Vinyals, Oriol, Alexander Toshev, Samy Bengio, and Dumitru Erhan. "Show ...
  • Chen, Xinlei, and C. Lawrence Zitnick. "Mind's eye: A recurrent ...
  • Li, Ruifan, Haoyu Liang, Yihui Shi, Fangxiang Feng, and Xiaojie ...
  • Aneja, Jyoti, Aditya Deshpande, and Alexander G. Schwing. "Convolutional image ...
  • Lin, Tsung-Yi, Michael Maire, Serge Belongie, James Hays, Pietro Perona, ...
  • Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu. "Bleu: ...
  • Banerjee, Satanjeev, and Alon Lavie. "METEOR: An automatic metric for ...
  • Vedantam, Ramakrishna, C. Lawrence Zitnick, and Devi Parikh. "Cider: Consensus-based ...
  • Lin, Chin-Yew. "Rouge: A package for automatic evaluation of summaries." ...
  • He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. "Deep ...
  • Chen, Long, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, ...
  • Wu, Qi, Chunhua Shen, Peng Wang, Anthony Dick, and Anton ...
  • Zhang, Li, Flood Sung, Feng Liu, Tao Xiang, Shaogang Gong, ...
  • Venugopalan, Subhashini, Lisa Anne Hendricks, Marcus Rohrbach, Raymond Mooney, Trevor ...
  • Rennie, Steven J, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and ...
  • Cho, Kyunghyun, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi ...
  • Lu, Jiasen, Caiming Xiong, Devi Parikh, and Richard Socher. "Knowing ...
  • Plummer, Bryan A., Liwei Wang, Chris M. Cervantes, Juan C. ...
  • Sattari, Zahra Famil, Hassan Khotanlou, and Elham Alighardash. "Improving image ...
  • Yamashita, Rikiya, Mizuho Nishio, Richard Kinh Gian Do, and Kaori ...
  • Sattari, Zahra Famil, Hassan Khotanlou, and Elham Alighardash. "Improving image ...
  • Ding, Songtao, Shiru Qu, Yuling Xi, and Shaohua Wan. "Stimulus-driven ...
  • نمایش کامل مراجع