Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model
محل انتشار: مجله هوش مصنوعی و داده کاوی، دوره: 13، شماره: 3
سال انتشار: 1404
نوع سند: مقاله ژورنالی
زبان: انگلیسی
مشاهده: 127
فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JADM-13-3_006
تاریخ نمایه سازی: 12 شهریور 1404
چکیده مقاله:
Artificial intelligence (AI) has significantly advanced speech recognition applications. However, many existing neural network-based methods struggle with noise, reducing accuracy in real-world environments. This study addresses isolated spoken Persian digit recognition (zero to nine) under noisy conditions, particularly for phonetically similar numbers. A hybrid model combining residual convolutional neural networks and bidirectional gated recurrent units (BiGRU) is proposed, utilizing word units instead of phoneme units for speaker-independent recognition. The FARSDIGIT۱ dataset, augmented with various approaches, is processed using Mel-Frequency Cepstral Coefficients (MFCC) for feature extraction. Experimental results demonstrate the model’s effectiveness, achieving ۹۸.۵۳%, ۹۶.۱۰%, and ۹۵.۹۲% accuracy on training, validation, and test sets, respectively. In noisy conditions, the proposed approach improves recognition by ۲۶.۸۸% over phoneme unit-based LSTM models and surpasses the Mel-scale Two Dimension Root Cepstrum Coefficients (MTDRCC) feature extraction technique along with MLP model (MTDRCC+MLP) by ۷.۶۱%.
کلیدواژه ها:
Spoken Digit Recognition ، data augmentation ، Convolutional neural network ، Bidirectional Gated Recurrent Unit
نویسندگان
Ali Nasr-Esfahani
Department of Electrical and Computer Engineering, Qom University of Technology, Iran.
Mehdi Bekrani
Department of Electrical and Computer Engineering, Qom University of Technology, Iran.
Roozbeh Rajabi
Department of Electrical and Computer Engineering, Qom University of Technology, Iran.
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :