مدلسازی فضایی-زمانی فعالیت انسانی در ویدئوها با استفاده از ماشین های بولتزمن محدود دوبعدی و شبکه های LSTM

  • سال انتشار: 1403
  • محل انتشار: ششمین کنفرانس ملی انفورماتیک ایران
  • کد COI اختصاصی: NICC06_019
  • زبان مقاله: فارسی
  • تعداد مشاهده: 42
دانلود فایل این مقاله

نویسندگان

مجید جودکی

دانشجوی دکتری، دانشکده برق و کامپیوتر، دانشگاه کاشان، کاشان

حسین ابراهیمپور کومله

استادیار، دانشکده برق و کامپیوتر، دانشگاه کاشان، کاشان

چکیده

در حوزه تحلیل ویدئو، بهویژه در شناسایی فعالیت های انسانی، استفاده از معماری های پیشرفته شبکه عصبی رایج است. از میان این روش ها، ترکیب ماشین های بولتزمن محدود و شبکه های عصبی بازگشتی به دلیل توانایی شان در مدل سازی موثر پویایی های فضایی و زمانی، نتایج چشمگیری به همراه داشته است. این مقاله یک معماری جدید را معرفی می کند که ماشین های بولتزمن محدود دوبعدی را با شبکه های LSTM ترکیب می کند تا سه چالش کلیدی را برطرف سازد. اولا، این معماری فریم های دوبعدی ویدئو را مستقیما پردازش می کند و اطلاعات فضایی را بدون نیاز به پیش پردازش گسترده حفظ می نماید. ثانیا، از ماشین های بولتزمن محدود دوبعدی برای درک الگوهای فضایی استفاده می کند. و در نهایت، شبکه های LSTM را برای مدل سازی وابستگی های زمانی به کار می گیرد، که توانایی مدل را در شناسایی فعالیت پیچیده در توالی های طوالنی تقویت می کند. این مدل بر روی مجموعه داده های KTH، UCF Sports و HMDB۵۱ آزمایش شده و دقت های بهبودیافته ای به ترتیب معادل ۹۵.۳% و ۹۳.۴% و ۷۰.۸% را به دست آورده است که نشان دهنده اثربخشی آن نسبت به روش های قبلی است.

کلیدواژه ها

یادگیری عمیق, ماشین بولتزمن محدود دو بعدی, شبکه های LSTM, شناسایی فعالیت انسانی, شبکه های عصبی بازگشتی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.