تشخیص نوشتار با تشخیص حرکات دست با استفاده از واکسل سازی: برآورد دقیق موقعیت سه بعدی و تشخیص حرکات دست نوشتاری با استفاده از شبکه پیش بینی واکسل-به-واکسل V۲V-PoseNet

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 97

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_RSC-1-4_003

تاریخ نمایه سازی: 20 فروردین 1403

چکیده مقاله:

بیشتر روش های موجود برای تخمین ژست دست سه بعدی از یک نقشه عمقی تک از یک چارچوب مشترک استفاده می کنند که با گرفتن یک نقشه عمق دوبعدی، مختصات سه بعدی نقاط کلیدی را مستقیما از طریق شبکه های عصبی کانولوشنی دوبعدی پیش بینی می کنند. اولین ضعف این رویکرد وجود انحنای پرسپکتیو در نقشه عمق دوبعدی است. در حالی که نقشه عمق به طورذاتی داده های سه بعدی است، روش های قبلی بسیاری از نقشه های عمق را به عنوان تصاویر دوبعدی در نظر می گیرند که می تواند شکل واقعی شیء را از طریق پراجکشن از فضای سه بعدی به دوبعدی تحریف کند. این مجبور به انجام تخمین مقاوم در برابر انحنای چشم انداز می شود. دومین ضعف رویکرد سنتی این است که رگرسیون مستقیم مختصات سه بعدی از تصویر دوبعدی، یک نقشه برداری بسیار غیرخطی است که موجب دشواری در روند یادگیری می شود. برای غلبه بر این ضعف ها، ابتدا مسئله تخمین ژست دست انسان سه بعدی از یک نقشه عمقی تک را به یک پیش بینی وکسل به وکسل تبدیل می کنیم که از یک شبکه وکسلی سه بعدی استفاده می کند و برای هر نقطه کلیدی احتمال وکسل مربوطه را تخمین می زند. ما مدل خود را به عنوان یک شبکه عصبی کانولوشنی سه بعدی طراحی می کنیم که تخمین های دقیقی را در حال اجرا به صورت زمان واقعی ارائه می دهد.

کلیدواژه ها:

V۲V-PoseNet ، شبکه وکسل به وکسل ، Voxel-to-Voxel Prediction Network ، شبکه پیش بینی وکسل به وکسل ، تخمین ژست سه بعدی دست ، تخمین ژست انسان ، نقشه عمق واحد

نویسندگان

سیدمجتبی میرزاده

کارشناس ارشد رشته مهندسی کامپیوتر، دانشگاه آزاد واحد تهران غرب، تهران، ایران

محمد زارع

گروه فناوری اطلاعات، دانشگاه صنعتی شیراز، شیراز، ایران