بهبود تقطیع معنایی ویدئو با استفاده از شبکه های عصبی عمیق و جریان نوری

سال انتشار: 1400
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 136

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JSCIT-10-4_007

تاریخ نمایه سازی: 25 مهر 1403

چکیده مقاله:

امروزه از تقطیع معنایی ویدئو در کاربردهای بسیاری از قبیل خودروهای بدون سرنشین، سیستم های ناوبری، سیستم های واقعیت مجازی و ... استفاده می شود. در سال های اخیر پیشرفت چشم گیری در تقطیع معنایی تصاویر مشاهده شده است. اما از آن جا که فریم های پشت سر هم یک ویدئو باید با سرعت بالا و تاخیر کم و به صورت بلادرنگ پردازش شوند استفاده از تقطیع معنایی تصویر روی تک تک فریم های ویدئو با مشکل مواجه می شود؛ بنابراین تقطیع معنایی فریم های یک ویدئو به صورت بلادرنگ و با دقت مناسب موضوعی چالش برانگیز است. به منظور مقابله با چالش ذکر شده، در این مقاله یک چارچوب تقطیع معنایی ویدئو معرفی شده است که با در نظر گرفتن تغییرات فریم های پشت سر هم (با استفاده از جریان نوری) و بهره گیری از شبکه عمیق بازگشتی GRU، از اطلاعات تقطیع معنایی فریم های قبلی به منظور افزایش سرعت و دقت استفاده شده است. یک ورودی شبکه GRU تخمینی از تقطیع معنایی فریم فعلی (حاصل از یک شبکه عمیق کانولوشنال از پیش آموزش دیده)، و ورودی دیگر آن لغزش یافته تقطیع معنایی فریم قبلی در راستای جریان نوری دو فریم قبلی و فعلی می باشد. روش پیشنهادی دارای دقت و سرعت قابل رقابت با شناخته شده ترین و بهترین روش ها می باشد. دقت تقطیع معنایی بر اساس معیار ارزیابی mIoU روی مجموعه داده های Cityscapes و Camvid به ترتیب برابر با ۸۳.۱ و ۷۹.۸ می باشد. این در حالیست که در روش پیشنهادی سرعت تقطیع معنایی با استفاده از یک GPU تسلا مدل P۴ روی مجموعه داده های Cityscapes و Camvid به ترتیب به ۳۴ و ۳۶.۳ فریم بر ثانیه رسیده است.

نویسندگان

mohammad mehdinajafi najafi

دانشجوی کارشناسی ارشد، مجتمع مهندسی برق و کامپیوتر، دانشگاه صنعتی مالک اشتر.

Mohammad Fakhredanesh

گروه علمی مهندسی کامپیوتر (هوش مصنوعی)، پژوهشکده کامپیوتر و هوش مصنوعی، مجتمع برق و کامپیوتر، دانشگاه صنعتی مالک اشتر، تهران، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • F.J.Chang, Y.Y.Lin, and K.-J. Hsu, “Multiple structured-instance learning for semantic ...
  • X. Zhu, Y, Xiong, J, Dai, L, Yuan, and Y. ...
  • D. Lin Y. Li J. Shi, “Low-Latency Video Semantic Segmentation”, ...
  • P.Hu, F.Caba, O.Wang, Z.Lin, S.Sclaroff and F.Perazzi, “Temporally distributed networks ...
  • M.Fan, Sh.Lai, J.Huang, X.Wei, Z.Chai, J.Luo and X.Wei, “Rethinking BiSeNet For Real-time Semantic Segmentation”, CVPR, ۲۰۲۱ ...
  • H.Wang, W.Wang and J.Liu, “TEMPORAL MEMORY ATTENTION FOR VIDEO SEMANTIC SEGMENTATION”, CVPR, ...
  • A.Tao, K.Sapra and B.Catanzaro, “Hierarchical Multi-Scale Attention for Semantic Segmentation”, CVPR, ...
  • EfficientPS: R.Mohan and A.Valada, “Efficient Panoptic Segmentation”, International Journal of Computer ...
  • B.Cheng, M.D.Collins, Y.Zhu, T.Liu, T.S.Huang and H.Adam, “Panoptic-DeepLab: A Simple, Strong, and Fast Baseline ...
  • M.Khalooei, M.Fakhredanesh, M.Sabokrou, “Dominant and rare events detection and localization ...
  • Action Change Detection in Video Based on HOG [مقاله ژورنالی]
  • M. Fayyaz, M. H. Saffar, M. Sabokrou, M. Fathy and ...
  • P. Fischer, A. Dosovitskiy, E. Ilg, P. Hausser, C. Hazırbas, ...
  • E. L. Denton, S. Chintala, R. Fergus, et al., “Deep ...
  • F.Galasso, M.Keuper, T.Brox and B. Schiele, "Spectral graph reduction for ...
  • A.Khoreva, F.Galasso, M.Hein and B.Schiele, "Classifier based graph construction for ...
  • S. Hickson, S. Birchfield, I. Essa, and H. Christensen, "Efficient ...
  • S.Ardeshir, K.Malcolm and M.Shah, "Geo-semantic segmentation", IEEE Conference on Computer ...
  • G.Bertasius, L.Torresani, S.X.Yu and J.Shi, "Convolutional Random Walk Networks for ...
  • M.P.Kumar, H.Turki, D.Preston and D.Koller, "Parameter estimation and energy minimization ...
  • M.Volpi and V.Ferrari, "Semantic segmentation of urban scenes by learning ...
  • A.Sharma, O.Tuzel and D.W.Jacobs, "Deep hierarchical parsing for semantic segmentation", ...
  • Z.Liu, X. Li, P. Luo, C.-C. Loy and X. Tang, ...
  • B. Liu, X. He, and S. Gould, "Multi-class semantic video ...
  • L. Sevilla-Lara, D. Sun, V. Jampani, and M. J. Black, ...
  • G. Csurka and F. Perronnin, "An efficient approach to semantic ...
  • C.-F. Tsai, K. McGarry, and J. Tait, "Image classification using ...
  • T. Blaschke, C. Burnett, and A. Pekkarinen, "Image segmentation methods ...
  • S.Hochreiter and J.Schmidhuber, “Long short-term memory”, Neural computation, pp. ۱۷۳۵–۱۷۸۰, ...
  • K.Cho, B.Merrienboer, C.Gulc¸ F.Bougares, H.Schwenk and Y.Bengio, “Learning phrase representations ...
  • J.Long, E.Shelhamer, and T.Darrell, “Fully convolutional networks for semantic segmentation”, ...
  • S.Zheng , “Conditional random fields as recurrent neural networks”, IEEE ...
  • V.Badrinarayanan, A.Kendall and R.Cipolla, “Segnet: A deep convolutional encoder-decoder architecture ...
  • H. Zhao, J. Shi, X. Qi, X. Wang and J. ...
  • A.Kundu, V.Vineet and V.Koltun, “Feature space optimization for semantic video ...
  • B.Mahasseni, S.Todorovic, A.Fern, “Budget-Aware Deep Semantic Video Segmentation”, IEEE Conference on ...
  • X.Jin, X.Li, H.Xiao, X.Shen, Z.Lin, J.Yang, Y.Chen, J.Dong, L.Liu and ...
  • S.Jain, X.Wang and J.Gonzalez, “Accel: A corrective fusion network for ...
  • E. Shelhamer, K. Rakelly, J. Hoffman, and T,“Darrell. Clockwork convnets ...
  • J.Carreira, V.Patraucean, L.Mazare, A.Zisserman and S.Osindero, “Massively parallel video networks”, ...
  • Y.He, W.Chiu, M.Keuper and Mario Fritz, “Std۲p: Rgbd semantic segmentation ...
  • G.Hinton, O.Vinyals and J.Dean, “Distilling the knowledge in a neural ...
  • G.Huang, Z.Liu, L.V.Maaten and K.Weinberger, “Densely connected convolutional networks”, CVPR, ...
  • S.Chandra, C.Couprie and I.Kokkinos, “Deep Spatio-Temporal Random Fields for Efficient ...
  • A.Handa, V.Patraucean and R.Cipolla, “Spatio-temporal video autoencoder with differentiable memory”, ...
  • N. Ballas, L. Yao, C. Pal, and A.Courville, “Delving deeper ...
  • R. Gadde, V. Jampani, and P. V. Gehler,“Semantic video cnns ...
  • E.Ilg, N.Mayer, T.Saikia, M.Keuper, A.Dosovitskiy and T.Brox, “FlowNet ۲.۰: Evolution of Optical Flow Estimation with ...
  • https://www.cityscapes-dataset.com, Accessed: Feb. ۲۱, ۲۰۱۹ ...
  • http://mi.eng.cam.ac.uk/research/projects/VideoRec/Camvid, Accessed: Ap. ۳, ۲۰۱۹ ...
  • Yu and F.Koltun, “Multi-scale context aggregation by dilated convolutions”, ICLR, ...
  • T.W.Hui, X.Tang and C.Ch.Loy, “LiteFlowNet: A Lightweight Convolutional Neural Network for Optical ...
  • X.Li, A.You, Z.Zhu, H.Zhao, M.Yang, K.Yang, Sh.Tan andY.Tong, ‘Semantic Flow ...
  • Y.Nirkin, L.Wolf and T.Hassner, “HyperSeg: Patch-wise Hypernetwork for Real-tim ...
  • Semantic Segmentation”, CVPR, ۲۰۲۱ ...
  • D.Nilsson and C.Sminchisescu, “Semantic Video Segmentation by Gated Recurrent Flow ...
  • Ch.Yu, J.Wang, Ch.Peng and Ch.Gao, “BiSeNet: Bilateral Segmentation Network for ...
  • M.D.Yang, J.Boubin, H.P.Tsai and H.Tseng, “Adaptive autonomous UAV scouting for ...
  • Y.Zhu, K.Sapra, F.Reda; K.Shih, Sh.Newsam, A.Tao and Bryan Catanzaro, “Improving Semantic Segmentation via Video Propagation ...
  • Y.Liu, Ch.Shen, Ch.Yu and J.Wang, “Efficient Semantic Video Segmentation with Per-Frame Inference”, ECCV, ...
  • Y.Hong, H.Pan, W.Sun and Y.Jia, “Deep Dual-resolution Networks for Real-time and Accurate Semantic ...
  • Ch.Yu, Ch.Gao, J.Wang, G.Yu, Ch.Shen and N.Sang, “BiSeNet V۲: Bilateral Network with Guided Aggregation for ...
  • L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy and A. ...
  • نمایش کامل مراجع