تشخیص گوینده با شبکه های عصبی کانولوشنال و تئوری نتروسافیک

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 127

فایل این مقاله در 18 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JME-21-75_001

تاریخ نمایه سازی: 30 بهمن 1402

چکیده مقاله:

تشخیص گوینده، فرآیند تشخیص افراد بر اساس صوت آنها است که در کاربردهای زیادی مورد استفاده قرار می گیرد. اگرچه تاکنون تحقیقات زیادی در زمینه ی تشخیص گوینده صورت گرفته است، اما چالش هایی وجود دارد که هنوز حل نشده اند. در این مقاله به منظور بهبود دقت سیستم های تشخیص گوینده از نتروسافیک و شبکه های عصبی کانولوشنال بهره گرفته شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صوتی تشکیل می گردد سپس اسپکتروگرام به فضای نتروسافیک منتقل می شود. در مرحله ی بعد عملگرهای بهبود بتا به مجموعه های نتروسافیک اعمال می شود و این عملیات تا ثابت شدن آنتروپی مجموعه های نتروسافیک تکرار می گردد. در نهایت یک مدل شبکه ی عصبی کانولوشنال برای طبقه بندی هیستوگرام پیشنهاد می شود. برای ارزیابی و تحلیل روش پیشنهادی از دو پایگاه داده ی Aurora۲ و TIMIT استفاده شده است. روش پیشنهادی روی پایگاه داده ی Aurora۲ به دقت ۷۹/۹۳ درصد و روی پایگاه داده ی TIMIT به دقت ۲۴/۹۵ درصد دست یافته است که در مقایسه با روش های رقیب عملکرد بهتری داشته است.

کلیدواژه ها:

اسپکتروگرام ، تشخیص گوینده ، نتروسافیک ، شبکه ی عصبی کانولوشنال

نویسندگان

صادق فدایی

استادیار، دانشکده مهندسی، دانشگاه یاسوج.

عبدالرضا رشنو

استادیار، دانشکده مهندسی، دانشگاه لرستان.

عبدالصمد حمیدی

استادیار، دانشکده مهندسی، دانشگاه لرستان.

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Muller, Christian, ed. Speaker Classification: Fundamentals, features, and methods. Springer-Verlag ...
  • Ajmera, Pawan K., and Raghunath S. Holambe. "Fractional Fourier transform ...
  • Rathor, Sandeep, and R. S. Jadon. "Text indpendent speaker recognition ...
  • Lei, Howard, Bernd T. Meyer, and Nikki Mirghafori. "Spectro-temporal Gabor ...
  • Qi, Minhui, Yongbin Yu, Yifan Tang, QuanXin Deng, Feng Mai, ...
  • Zhang, Ming, Ling Zhang, and Heng-Da Cheng. "A neutrosophic approach ...
  • Heshmati, Abed, Maryam Gholami, and Abdolreza Rashno. "Scheme for unsupervised ...
  • Guo, Yanhui, Abdulkadir Şengür, and Jun Ye. "A novel image ...
  • Guo, Yanhui, and Abdulkadir Şengür. "A novel image edge detection ...
  • Guo, Yanhui, and Abdulkadir Sengur. "NCM: Neutrosophic c-means clustering algorithm." ...
  • Ohi, Abu Quwsar, Muhammad F. Mridha, Md Abdul Hamid, and ...
  • Kabir, Muhammad Mohsin, Muhammad F. Mridha, Jungpil Shin, Israt Jahan, ...
  • Keshet, Joseph, and Samy Bengio. Automatic speech and speaker recognition: ...
  • Hanifa, Rafizah Mohd, Khalid Isa, and Shamsul Mohamad. "A review ...
  • Bai, Zhongxin, and Xiao-Lei Zhang. "Speaker recognition based on deep ...
  • Bharath, K. P., and Rajesh Kumar. "Multitaper based MFCC feature ...
  • Ghalamiosgouei, Sina, and Masoud Geravanchizadeh. "Robust Speaker Identification Based on ...
  • Liu, Zheli, Zhendong Wu, Tong Li, Jin Li, and Chao ...
  • Han, Jae Hyun, Kang Min Bae, Seong Kwang Hong, Hyunsin ...
  • Sahidullah, Md, and Goutam Saha. "A novel windowing technique for ...
  • Chowdhury, Anurag, and Arun Ross. "Fusing MFCC and LPC features ...
  • Devi, Kharibam Jilenkumari, Nangbam Herojit Singh, and Khelchandra Thongam. "Automatic ...
  • Jahangir, Rashid, Ying Wah Teh, Nisar Ahmed Memon, Ghulam Mujtaba, ...
  • Nunes, Joao Antônio Chagas, David Macêdo, and Cleber Zanchettin. "Additive ...
  • Moumin, Abdikarim Ali, and Smitha S. Kumar. "Automatic Speaker Recognition ...
  • Chien, Jen-Tzung, and Kang-Ting Peng. "Neural adversarial learning for speaker ...
  • Zhang, Xingyu, Xia Zou, Meng Sun, Thomas Fang Zheng, Chong ...
  • Dai, Meixiang, Guojun Dai, Yifan Wu, Yixing Xia, Fangyao Shen, ...
  • Schädler, Marc René, Bernd T. Meyer, and Birger Kollmeier. "Spectro-temporal ...
  • Rashno, Elyas, Ahmad Akbari, and Babak Nasersharif. "A convolutional neural ...
  • Bahmaninezhad, Fahimeh, Chunlei Zhang, and John HL Hansen. "An investigation ...
  • Mesgarani, Nima, Malcolm Slaney, and Shihab A. Shamma. "Discrimination of ...
  • Ahmed, Ahmed Isam, John P. Chiverton, David L. Ndzi, and ...
  • Xu, Jinwei, Shijie Li, Jingfei Jiang, and Yong Dou. "A ...
  • Chakroun, Rania, and Mondher Frikha. "Robust text-independent speaker recognition with ...
  • Bian, Tengyue, Fangzhou Chen, and Li Xu. "Self-attention based speaker ...
  • Avila, Anderson R., Douglas O’Shaughnessy, and Tiago H. Falk. "Automatic ...
  • Lin, Ting, and Ye Zhang. "Speaker recognition based on long-term ...
  • Nunes, Joao Antônio Chagas, David Macêdo, and Cleber Zanchettin. "Am-mobilenet۱d: ...
  • Govindan, Sumithra Manimegalai, Prakash Duraisamy, and Xiaohui Yuan. "Adaptive wavelet ...
  • Guo, Yanhui, and Heng-Da Cheng. "New neutrosophic approach to image ...
  • ]۴۳[ عفتی، میثم، رحمت مدندوست، و زینب فلاح زرجو بازکیایی. ...
  • ]۴۴[ ولایتی، محمدحسین. "ارزیابی قابلیت ضریب مشارکت ژنراتورها به منظور ...
  • ]۴۶[ حسینی، سیاوش، سعید ستایشی، غلامحسین روشنی، عبدالحمید زاهدی، و ...
  • Hirsch, Hans-Günter, and David Pearce. "The Aurora experimental framework for ...
  • TIMIT dataset, available online on: https://catalog.ldc.upenn.edu/LDC۹۳S۱. Last accessed at ۱۴ ...
  • NOISEX-۹۲ noise dataset, available online on: http://spib.linse.ufsc.br/noise.html. Last accessed at ...
  • نمایش کامل مراجع