Efficient DL Models for Voice Pathology Detection in Healthcare Applications using Sustained Vowels

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 99

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IAICONF01_003

تاریخ نمایه سازی: 31 اردیبهشت 1404

چکیده مقاله:

Voice Pathology Detection (VPD) aims to identify voice impairments through the analysis of speech signals, providing a foundation for developing diagnostic tools in advanced healthcare services to the public. This paper contributes to the development of efficient and accurate models based on deep learning (DL) for automatic VPD using sustained vowels of speech data. Therefore, this study explores the comparative efficacy of Mel-Frequency Cepstral Coefficients (MFCCs) and Linear Predictive Coding (LPC) as acoustic features extracted from vowels /i/, /a/, and /u/. Using the AVFAD database, we utilized and optimized a Convolutional Neural Network (CNN) as a DL model to classify healthy and pathological voices, prioritizing both accuracy and computational efficiency for realtime applications. Our findings reveal that ۲۰ MFCC features extracted from vowel /i/ achieve the highest accuracy, with the optimal model reaching approximately ۸۸% on test data.

نویسندگان

Sahar Farazi

Faculty of Computer Science and Engineering, Shahid Beheshti University, Tehran, Iran

Yasser Shekofteh

Faculty of Computer Science and Engineering, Shahid Beheshti University, Tehran, Iran