مدلسازی فضایی-زمانی فعالیت انسانی در ویدئوها با استفاده از ماشین های بولتزمن محدود دوبعدی و شبکه های LSTM

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 26

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NICC06_019

تاریخ نمایه سازی: 31 تیر 1404

چکیده مقاله:

در حوزه تحلیل ویدئو، بهویژه در شناسایی فعالیت های انسانی، استفاده از معماری های پیشرفته شبکه عصبی رایج است. از میان این روش ها، ترکیب ماشین های بولتزمن محدود و شبکه های عصبی بازگشتی به دلیل توانایی شان در مدل سازی موثر پویایی های فضایی و زمانی، نتایج چشمگیری به همراه داشته است. این مقاله یک معماری جدید را معرفی می کند که ماشین های بولتزمن محدود دوبعدی را با شبکه های LSTM ترکیب می کند تا سه چالش کلیدی را برطرف سازد. اولا، این معماری فریم های دوبعدی ویدئو را مستقیما پردازش می کند و اطلاعات فضایی را بدون نیاز به پیش پردازش گسترده حفظ می نماید. ثانیا، از ماشین های بولتزمن محدود دوبعدی برای درک الگوهای فضایی استفاده می کند. و در نهایت، شبکه های LSTM را برای مدل سازی وابستگی های زمانی به کار می گیرد، که توانایی مدل را در شناسایی فعالیت پیچیده در توالی های طوالنی تقویت می کند. این مدل بر روی مجموعه داده های KTH، UCF Sports و HMDB۵۱ آزمایش شده و دقت های بهبودیافته ای به ترتیب معادل ۹۵.۳% و ۹۳.۴% و ۷۰.۸% را به دست آورده است که نشان دهنده اثربخشی آن نسبت به روش های قبلی است.

کلیدواژه ها:

یادگیری عمیق ، ماشین بولتزمن محدود دو بعدی ، شبکه های LSTM ، شناسایی فعالیت انسانی ، شبکه های عصبی بازگشتی

نویسندگان

مجید جودکی

دانشجوی دکتری، دانشکده برق و کامپیوتر، دانشگاه کاشان، کاشان

حسین ابراهیمپور کومله

استادیار، دانشکده برق و کامپیوتر، دانشگاه کاشان، کاشان