تشخیص کنش انسانی در ویدیو با استفاده از شبکه عصبی مصنوعی عمیق

الهه دست برآورده; مهدی یعقوبی

تشخیص کنش انسانی در ویدیو با استفاده از شبکه عصبی مصنوعی عمیق

محل انتشار: دومین کنفرانس مکانیک،برق ،مهندسی هوافضا و علوم مهندسی

سال انتشار: 1401

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 260

فایل این مقاله در 20 صفحه با فرمت PDF و WORD قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1448463

شناسه ملی سند علمی:

IMEAECONF02_077

تاریخ نمایه سازی: 28 اردیبهشت 1401

چکیده مقاله:

شناخت فعالیت های انسان در ویدئوها یک مسئله مهم در علوم کامپیوتر است. در تشخیص فعالیت در ویدئوها باید علاوه بر استخراج ویژگی های مکانی ،ویژگی های زمانی نیز استخراج شود، که باعث دشوار شدن مسئله میشود. شبکه های عصبی کانولوشن و شبکه عصبی بازگشتی دو نوع از شبکه های عصبی مصنوعی هستند. شبکه های عصبی کانولوشن ، موفقیت های بسیاری در تشخیص تصاویر با توجه به توانایی در استخراج ویژگی های مکانی از سطوح مختلف ، دست یافته اند.شبکه های عصبی بازگشتی ، موفقیت بسیاری در پردازش اطلاعات چند رسانه ای به دست آورده اند و نتایج پیشرفته ای را در زمینه تشخیص گفتار،پردازش سیگنال،پردازش ویدئو و تحلیل داده های متن به دست آورده اند . در این پژوهش یک شبکه عصبی مصنوعی جدید به نام EliNet ، با استفاده از شبکه عصبی باز گشتی و کانولوشن پیشنهاد میکنیم که نقاط قوت عملیات کانولوشن و عملیات بازگشتی را شامل میشوند. در روش پیشنهادی، از لایه های کانولوشن و پولینگ بر روی هر تصویر ویدئو به صورت مجزا برای استخراج ویژگیهای مکانی و کاهش ابعاد و سپس از لایه ریکارنت بر روی ترکیب نتایج اعمال کانولوشن و پولینگ بر روی تصاویر برای استخراج ویژگی های زمانی فریم های ویدئویی استفاده خواهد شد. لایه ریکارت باعث کاهش سرعت شبکه میشود به همین دلیل از ابزار CUDNN برای افزایش سرعت استفاده خواهد شد و در نهایت سرعت بهبود یافته و دقت تشخیص شبکه با توجه به تعداد کلاس ، بر روی داده های EliUCF۱۰ که شامل ده کلاس ورزشی(Billiards، Basketball، Baseball ،pitchPunch، kayaking، Soccer penalty، Clean &jerk، Biking، skiing،Table tennis shot)است، به ۹۲.۵۰ درصد افزایش پیدا کرده است

کلیدواژه ها:

تشخیص فعالیت ویدئویی ، رگرسیون یادگیری عمیق ، ساختار داده ، پیش بینی ، شبیه سازی.

نویسندگان

الهه دست برآورده

گروه مهندسی برق، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران.

مهدی یعقوبی

استادیار گروه مهندسی برق، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران