تشخیص خودکار گوینده مبتنی بر ویژگی های استخراج شده از بانک فیلتر گابور و شبکه های عصبی کانولوشنال

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 53

فایل این مقاله در 19 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JME-21-72_004

تاریخ نمایه سازی: 14 تیر 1402

چکیده مقاله:

صدای یک انسان حاوی خصوصیاتی از قبیل: قومیت، جنسیت، احساس، سن و اطلاعات دیگری از فرد است و موضوع تشخیص گوینده به شناسایی هویت افراد بر اساس صدای آنها می پردازد. اگرچه محققان در طول سال های گذشته در این زمینه فعالیت داشته اند و روش هایی برای بهبود دقت تشخیص گوینده پیشنهاد داده اند اما هنوز چالش هایی در این زمینه وجود دارد. در این مقاله یک روش جدید تشخیص گوینده مبتنی بر فیلترهای گابور و شبکه های عصبی کانولوشنال ارایه شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صحبت فرد تشکیل می شود. سپس با طراحی موثر فیلترهای گابور، بانک فیلتر گابور ایجاد می گردد. در مرحله ی بعد اسپکتروگرام سیگنال از بانک فیلتر گابور عبور داده شده و ویژگی های سیگنال صحبت استخراج می شود. در مرحله ی آخر با استفاده از یک شبکه ی عصبی کانولوشنال، گوینده شناسایی می شود. برای ارزیابی روش پیشنهادی از دو پایگاه داده ی Aurora۲ و TIMIT استفاده شده است. نتایج نشان می دهد که روش پیشنهادی دقت بهتری نسبت به روش های پیشین دارد.

کلیدواژه ها:

بانک فیلتر گابور ، اسپکتروگرام ، تشخیص گوینده ، شبکه ی عصبی کانولوشنال

نویسندگان

عبدالرضا رشنو

گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه لرستان، خرم آباد، ایران

صادق فدایی

گروه مهندسی برق، دانشکده فنی و مهندسی ، دانشگاه یاسوج، یاسوج، ایران

عبدالصمد حمیدی

گروه مهندسی برق، دانشکده مهندسی، دانشگاه لرستان، خرم آباد، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Dunn, J. S., and Podio, F. Biometrics Consortium website, http:// ...
  • Campbell, Joseph P. “Speaker recognition: A tutorial”, Proceedings of the IEEE, ...
  • Müller, C., Speaker Classification I: Fundamentals, Features, and Methods, Springer-Verlag Berlin ...
  • Müller, C., Speaker Classification II, Springer-Verlag Berlin Heidelberg, ۲۰۰۷ ...
  • Keshet, J., and Bengio, S. (Eds.), Automatic speech and speaker ...
  • Ohi, A. Q., Mridha, M. F., Hamid, M. A., and ...
  • Hanifa, R. M., Isa, K., and Mohamad, S., “A review ...
  • Lan, J., Zhang, R., Yan, Z., Wang, J., Chen, Y., ...
  • Schädler, M. R., Meyer, B. T., and Kollmeier, B., “Spectro-temporal ...
  • Mesgarani, N., Slaney, M., and Shamma, S. A., “Discrimination of ...
  • Sahidullah, M., and Saha, G., “A novel windowing technique for ...
  • Qi, M., Yu, Y., Tang, Y., Deng, Q., Mai, F., ...
  • Ghalamiosgouei, S., and Geravanchizadeh, M., “Robust Speaker Identification Based on ...
  • Chakroun, R., and Frikha, M., “Robust text-independent speaker recognition with ...
  • Moumin, A. A., and Kumar, S. S., “Automatic Speaker Recognition ...
  • Lin, T., and Zhang, Y., “Speaker recognition based on long-term ...
  • Jiahong, L., Jie, B., Yingshuang, C., and Chun, L., “An ...
  • Prachi, N. N., Nahiyan, F. M., Habibullah, M., and Khan, ...
  • Wang, Y., Wan, S., Zhang, S., and Yu, J., “Speaker ...
  • Balpande, M., Sansare, R., Padelkar, T., and Shinde, V., “Speaker ...
  • Roy, M. K., and Keshwala, U., “Res۲Net based Text Independent ...
  • Wang, R., Ao, J., Zhou, L., Liu, S., Wei, Z., ...
  • Orken, M., Dina, O., Keylan, A., Tolganay, T., and Mohamed, ...
  • Faúndez-Zanuy, M., “Speaker recognition by means of a combination of ...
  • Hu, H. R., Song, Y., Liu, Y., Dai, L. R., ...
  • Chowdhury, A., Cozzo, A., and Ross, A., “Domain Adaptation for ...
  • Bahmaninezhad, F., Zhang, C., and Hansen, J. H., “An investigation ...
  • Bharath, K. P., and Kumar, R., “Multitaper based MFCC feature ...
  • Nunes, J. A. C., Macêdo, D., and Zanchettin, C., “Am-mobilenet۱d: ...
  • Nunes, J. A. C., Macêdo, D., and Zanchettin, C., “Additive ...
  • Liu, Z., Wu, Z., Li, T., Li, J., and Shen, ...
  • Dai, M., Dai, G., Wu, Y., Xia, Y., Shen, F., ...
  • Avila, A. R., O’Shaughnessy, D., and Falk, T. H., “Automatic ...
  • Rashno, E., Akbari, A., and Nasersharif, B., “A convolutional neural ...
  • Bian, T., Chen, F., and Xu, L., “Self-attention based speaker ...
  • Devi, K. J., Singh, N. H., and Thongam, K., “Automatic ...
  • Chien, J. T., and Peng, K. T., “Neural adversarial learning ...
  • Han, J. H., Bae, K. M., Hong, S. K., Park, ...
  • Zhang, X., Zou, X., Sun, M., Zheng, T. F., Jia, ...
  • Chowdhury, A., and Ross, A., “Fusing MFCC and LPC features ...
  • Xu, J., Li, S., Jiang, J., and Dou, Y., “A ...
  • Mesgarani, N., David, S. V., Fritz, J. B., and Shamma, ...
  • Ezzat, T., Bouvrie, J. V., and Poggio, T. A., “Spectro-temporal ...
  • ]۴۴[ سیاوش حسینی، سعید ستایشی، غلامحسین روشنی، عبدالحمید زاهدی و ...
  • ]۴۵[ میثم عفتی، رحمت مدندوست، و زینب فلاح زرجو بازکیایی، ...
  • ]۴۶[ محمدجسین ولایتی، "ارزیابی قابلیت ضریب مشارکت ژنراتورها به منظور ...
  • TIMIT dataset, available online on: https://catalog.ldc.upenn.edu/LDC۹۳S۱. Last accessed at ۱۴ ...
  • The Aurora experimental framework for the performance evaluation of speech ...
  • Naing, H. M. S., Hidayat, R., Hartanto, R., and Miyanaga, ...
  • NOISEX-۹۲ noise dataset, available online on: http://spib.linse.ufsc.br/noise.html. Last accessed at ...
  • نمایش کامل مراجع