تشخیص کنش انسانی در ویدیو با استفاده از شبکه عصبی مصنوعی عمیق

سال انتشار: 1401
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 260

فایل این مقاله در 20 صفحه با فرمت PDF و WORD قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IMEAECONF02_077

تاریخ نمایه سازی: 28 اردیبهشت 1401

چکیده مقاله:

شناخت فعالیت های انسان در ویدئوها یک مسئله مهم در علوم کامپیوتر است. در تشخیص فعالیت در ویدئوها باید علاوه بر استخراج ویژگی های مکانی ،ویژگی های زمانی نیز استخراج شود، که باعث دشوار شدن مسئله میشود. شبکه های عصبی کانولوشن و شبکه عصبی بازگشتی دو نوع از شبکه های عصبی مصنوعی هستند. شبکه های عصبی کانولوشن ، موفقیت های بسیاری در تشخیص تصاویر با توجه به توانایی در استخراج ویژگی های مکانی از سطوح مختلف ، دست یافته اند.شبکه های عصبی بازگشتی ، موفقیت بسیاری در پردازش اطلاعات چند رسانه ای به دست آورده اند و نتایج پیشرفته ای را در زمینه تشخیص گفتار،پردازش سیگنال،پردازش ویدئو و تحلیل داده های متن به دست آورده اند . در این پژوهش یک شبکه عصبی مصنوعی جدید به نام EliNet ، با استفاده از شبکه عصبی باز گشتی و کانولوشن پیشنهاد میکنیم که نقاط قوت عملیات کانولوشن و عملیات بازگشتی را شامل میشوند. در روش پیشنهادی، از لایه های کانولوشن و پولینگ بر روی هر تصویر ویدئو به صورت مجزا برای استخراج ویژگیهای مکانی و کاهش ابعاد و سپس از لایه ریکارنت بر روی ترکیب نتایج اعمال کانولوشن و پولینگ بر روی تصاویر برای استخراج ویژگی های زمانی فریم های ویدئویی استفاده خواهد شد. لایه ریکارت باعث کاهش سرعت شبکه میشود به همین دلیل از ابزار CUDNN برای افزایش سرعت استفاده خواهد شد و در نهایت سرعت بهبود یافته و دقت تشخیص شبکه با توجه به تعداد کلاس ، بر روی داده های EliUCF۱۰ که شامل ده کلاس ورزشی(Billiards، Basketball، Baseball ،pitchPunch، kayaking، Soccer penalty، Clean &jerk، Biking، skiing،Table tennis shot)است، به ۹۲.۵۰ درصد افزایش پیدا کرده است

نویسندگان

الهه دست برآورده

گروه مهندسی برق، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران.

مهدی یعقوبی

استادیار گروه مهندسی برق، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران