تشخیص جعل صوتی مبتنی بر یادگیری چندوجهی صوت و تصویر گوینده
سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 8
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ECMECONF26_035
تاریخ نمایه سازی: 4 بهمن 1404
چکیده مقاله:
تشخیص جعل عمیق صوتی مبتنی بر یادگیری چندوجهی، بر ادغام تحلیل صدا و تصویر گوینده تمرکز دارد تا ناهماهنگی های چندحسی مانند عدم تطابق لب خوانی و صدا را شناسایی کند. این رویکرد با بهره گیری از مدل های یادگیری عمیق، تهدیدهای ناشی از محتوای جعلی مانند اطلاعات نادرست و جعل هویت را کاهش می دهد؛ زیرا روش های تک حسی ناکافی بوده و ادغام صدا و تصویر دقت تشخیص را به طور قابل توجهی افزایش می دهد. فرض اصلی پژوهش این است که بهره برداری از ناهماهنگی های چندوجهی با استفاده از مدل های یادگیری خودنظارتی و چندوظیفه ای، تعمیم پذیری مدل را بهبود بخشیده و دقت تشخیص را نسبت به روش های سنتی بالاتر می برد. همچنین پیش آموزش گسترده روی مجموعه داده های چندحسی چالش های تشخیص ویدیوهای جعلی را برطرف کرده و مدل های ترکیبی مانند شبکه های عصبی پیچشی و ترانسفورمرها عملکرد موثرتری نشان می دهند. در مواد و روش تحقیق، از مجموعه داده هایی نظیر FakeAVCeleb و DeepfakeTIMIT و همچنین مجموعه داده های خودساخته با بیش از ۱.۸۱ میلیون نمونه استفاده شده است. روش ها شامل استخراج ویژگی با مدل هوبرت صوتی-تصویری برای تحلیل لب خوانی، شبکه های کانولوشن زمانی چندمقیاس، مدل های ترانسفورمر برای ویژگی های چهره، و یادگیری پرامپت چندوظیفه ای برای هم ترازی فریم به فریم می شود. رویکردهای مروری نیز بیش از ۵۱ مقاله در بازه ۲۰۲۲ تا ۲۰۲۵ را بررسی کرده و مدل هایی مانند وی جی جی۱۹، شبکه عصبی مصنوعی، ترانسفورمر بینایی و ترکیب بی ال اس تی ام دوجهته-جی آر یو را ارزیابی نموده اند. تکنیک های کلیدی شامل پیش آموزش خودنظارتی، ادغام هرمی و تزریق سیگنال شبه نظارتی برای تعامل انتخابی صدا-تصویر است. نتایج نشان می دهد چارچوب های پیشنهادی مانند AV-Lip-Sync+ و HOLA عملکرد پیشرفته ای با دقت ۹۴ درصد و سطح زیر منحنی برتر (بهبود ۰.۰۴۷۶ نسبت به رقبا) ارائه کرده اند. روش های مبتنی بر پرامپت لرنینگ تعمیم پذیری عالی در مجموعه داده های محدود داشته و بررسی ها ریسک بالای واقع نمایی (بیش از ۹۰ درصد) در حملات مورفینگ را تایید کرده اند، اما تشخیص مبتنی بر پزشکی قانونی هوش مصنوعی خطا را ۳۰ تا ۵۰ درصد کاهش داده است. در نهایت، چالش های فرهنگی-اجتماعی ناشی از اطلاعات نادرست نیز برجسته شده است.
کلیدواژه ها:
نویسندگان
درسا بهروز خوش قلب
دانشجوی کارشناسی ارشد ناپیوسته مهندسی فناوری اطالعات-مدیریت سیستم های ا طلاعاتی