تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی

سال انتشار: 1401
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 117

فایل این مقاله در 18 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CECCONF16_054

تاریخ نمایه سازی: 19 شهریور 1401

چکیده مقاله:

ما سیستم یکپارچه ای را در ارتباط با مدل های مخلوط گاوس ساختاری (SGMM) و شبکه های عصبی به منظور دستیابی به راندمان محاسباتی و دقت بالا در ارتباط با تعیین هویت گوینده ارائه می دهیم. مدل پس زمینه ساختاری (SBM) در ابتدا از طریق خوشه بندی زنجیره ای تمام موئلفه های مخلوط گاوس در ارتباط با مدل پس زمینه ساختاری ایجاد می گردد. به این ترتیب، یک فضای اکوستیک به بخش های چندگانه ای در سطوح مختلف قدرت تشخیص، جزء بندی می گردد. برای هر یک از گوینده های مورد نظر، مدل مدل مخلوط گاوس ساختاری (SGMM) از طریق استدلال حداکثری (MAP) سازگار با مدل پس زمینه ساختاری (SBM) ایجاد می گردد. در هنگام تست، تنها زیرمجموعه کمی از موئلفه های مخلوط گاوس برای هر بردار مختصات محاسبه می گردد تا هزینه محاسبه را به طور قابل توجهی کاهش دهد. علاوه بر این، امتیازات حاصل شده در لایه های مدل های درخت ساختار، برای تصمیم گیری نهایی از طریق شبکه عصبی ادغام می گردند. وضعیت های مختلفی در بررسی های انجام شده بر روی داده های حاصل از گفتگوهای تلفنی مورد استفاده در ارزیابی هویت گوینده NIST ، مقایسه شد. نتایج تجربی نشان می دهد که کاهش محاسبه توسط فاکتور ۱۷ از طریق % ۵ کاهش نسبی در میزان خطای هم ارز (EER) در مقایسه با خطو مبنا، حاصل می گردد. روش SGMM-SBM (مدل مخلوط گاوس ساختاری- مدل پس زمینه ساختاری)، مزایایی را نسبت به مدل اخیرا مطرح شده GMM (مدل مخلوط گاوس) داشته، که شامل سرعت بالاتر و عملکرد تشخیص بهتر، می باشد.

کلیدواژه ها:

خوشه بندی گاوس ، شبکه عصبی ، تعیین هویت گوینده ، مدل مخلوط گاوس ساختاری

نویسندگان

اصغر قادری

استاد دانشگاه آزاد واحد ایرانشهر

مهرداد آبروش

برق و قدرت مقطع کارشناس ، دانشگاه آزاد اسلامی ایرانشهر

ناصر انصاری صفا

برق و قدرت مقطع کارشناس ، دانشگاه آزاد اسلامی ایرانشهر