بهبود مدل WAV۲VEC برای تشخیص خودکار مکالمه فارسی

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 98

فایل این مقاله در 17 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITCT23_053

تاریخ نمایه سازی: 1 شهریور 1403

چکیده مقاله:

در فناوری های دنیای امروز، تشخیص خودکار مکالمه یکی از زمینه های بسیار حیاتی در حوزه پردازش مکالمه محسوب می شود تشخیص مکالمه ی خودکار به عنوان یکی از مهم ترین زمینه های هوش مصنوعی ، امکان تشخیص و تفسیر مکالمه انسان را توسط کامپیوترها فراهم می کند. این فناوری برای انجام وظایف مختلفی از جمله ترجمه زنده، سیستم های پاسخ گویی به صدا و ابزارهای تایپ صوتی استفاده می شود. سیستم vec۲wav، به عنوان یکی از پیشروهای اخیر در حوزه سخن شناسایی خودکار، با بهرهگیری از مدلهای عمیق یادگیری ماشین و یادگیری انتقالی ، توانایی بالایی در تشخیص و ترجمه مکالمه انسانی را به متن دارد. این سیستم مبتنی بر مدلهای تبدیل اندازههای طیفی صوت به متن بوده و با استفاده از دادههای آموزشی بزرگ، می تواند بهبود چشمگیری در نرخ خطا در تبدیل مکالمه به متن داشته باشد. در این پژوهش هدف توسعه و بهینه سازی کد سیستم vec۲wav به منظور کاهش نرخ خطا در تبدیل مکالمه به متنمی باشد. با استفاده از مجموعه داده ۱۱ Common Voice، نتایج این تحقیق نشان می دهد که با بهرهگیری از تکنولوژی vec۲wav، نرخ خطای تبدیل مکالمه به متن به طور معناداری از (۱۲.۳۰%) به (%۰۱۸.۲۸) کاهش یافته که کاهش قابل توجهی از درصد خطای کلمه است که باعث می شود تشخیص خودکار مکالمه با دقت بالاتری انجام شود.

نویسندگان

فرشاد بیگی هرچگانی

گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی

ابراهیم نصراصفهانی

گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی

شکوفه یراقی

گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی

پریا بهرامی

گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی