تشخیص گوینده با شبکه های عصبی کانولوشنال و تئوری نتروسافیک

صادق فدایی; عبدالرضا رشنو; عبدالصمد حمیدی

تشخیص گوینده با شبکه های عصبی کانولوشنال و تئوری نتروسافیک

محل انتشار: فصلنامه مدل سازی در مهندسی، دوره: 21، شماره: 75

سال انتشار: 1402

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 127

فایل این مقاله در 18 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1919084

شناسه ملی سند علمی:

JR_JME-21-75_001

تاریخ نمایه سازی: 30 بهمن 1402

چکیده مقاله:

تشخیص گوینده، فرآیند تشخیص افراد بر اساس صوت آنها است که در کاربردهای زیادی مورد استفاده قرار می گیرد. اگرچه تاکنون تحقیقات زیادی در زمینه ی تشخیص گوینده صورت گرفته است، اما چالش هایی وجود دارد که هنوز حل نشده اند. در این مقاله به منظور بهبود دقت سیستم های تشخیص گوینده از نتروسافیک و شبکه های عصبی کانولوشنال بهره گرفته شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صوتی تشکیل می گردد سپس اسپکتروگرام به فضای نتروسافیک منتقل می شود. در مرحله ی بعد عملگرهای بهبود بتا به مجموعه های نتروسافیک اعمال می شود و این عملیات تا ثابت شدن آنتروپی مجموعه های نتروسافیک تکرار می گردد. در نهایت یک مدل شبکه ی عصبی کانولوشنال برای طبقه بندی هیستوگرام پیشنهاد می شود. برای ارزیابی و تحلیل روش پیشنهادی از دو پایگاه داده ی Aurora۲ و TIMIT استفاده شده است. روش پیشنهادی روی پایگاه داده ی Aurora۲ به دقت ۷۹/۹۳ درصد و روی پایگاه داده ی TIMIT به دقت ۲۴/۹۵ درصد دست یافته است که در مقایسه با روش های رقیب عملکرد بهتری داشته است.

کلیدواژه ها:

اسپکتروگرام ، تشخیص گوینده ، نتروسافیک ، شبکه ی عصبی کانولوشنال

نویسندگان

صادق فدایی

استادیار، دانشکده مهندسی، دانشگاه یاسوج.

عبدالرضا رشنو

استادیار، دانشکده مهندسی، دانشگاه لرستان.

عبدالصمد حمیدی

استادیار، دانشکده مهندسی، دانشگاه لرستان.

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Muller, Christian, ed. Speaker Classification: Fundamentals, features, and methods. Springer-Verlag ...
Ajmera, Pawan K., and Raghunath S. Holambe. "Fractional Fourier transform ...
Rathor, Sandeep, and R. S. Jadon. "Text indpendent speaker recognition ...
Lei, Howard, Bernd T. Meyer, and Nikki Mirghafori. "Spectro-temporal Gabor ...
Qi, Minhui, Yongbin Yu, Yifan Tang, QuanXin Deng, Feng Mai, ...
Zhang, Ming, Ling Zhang, and Heng-Da Cheng. "A neutrosophic approach ...
Heshmati, Abed, Maryam Gholami, and Abdolreza Rashno. "Scheme for unsupervised ...
Guo, Yanhui, Abdulkadir Şengür, and Jun Ye. "A novel image ...
Guo, Yanhui, and Abdulkadir Şengür. "A novel image edge detection ...
Guo, Yanhui, and Abdulkadir Sengur. "NCM: Neutrosophic c-means clustering algorithm." ...
Ohi, Abu Quwsar, Muhammad F. Mridha, Md Abdul Hamid, and ...
Kabir, Muhammad Mohsin, Muhammad F. Mridha, Jungpil Shin, Israt Jahan, ...
Keshet, Joseph, and Samy Bengio. Automatic speech and speaker recognition: ...
Hanifa, Rafizah Mohd, Khalid Isa, and Shamsul Mohamad. "A review ...
Bai, Zhongxin, and Xiao-Lei Zhang. "Speaker recognition based on deep ...
Bharath, K. P., and Rajesh Kumar. "Multitaper based MFCC feature ...
Ghalamiosgouei, Sina, and Masoud Geravanchizadeh. "Robust Speaker Identification Based on ...
Liu, Zheli, Zhendong Wu, Tong Li, Jin Li, and Chao ...
Han, Jae Hyun, Kang Min Bae, Seong Kwang Hong, Hyunsin ...
Sahidullah, Md, and Goutam Saha. "A novel windowing technique for ...
Chowdhury, Anurag, and Arun Ross. "Fusing MFCC and LPC features ...
Devi, Kharibam Jilenkumari, Nangbam Herojit Singh, and Khelchandra Thongam. "Automatic ...
Jahangir, Rashid, Ying Wah Teh, Nisar Ahmed Memon, Ghulam Mujtaba, ...
Nunes, Joao Antônio Chagas, David Macêdo, and Cleber Zanchettin. "Additive ...
Moumin, Abdikarim Ali, and Smitha S. Kumar. "Automatic Speaker Recognition ...
Chien, Jen-Tzung, and Kang-Ting Peng. "Neural adversarial learning for speaker ...
Zhang, Xingyu, Xia Zou, Meng Sun, Thomas Fang Zheng, Chong ...
Dai, Meixiang, Guojun Dai, Yifan Wu, Yixing Xia, Fangyao Shen, ...
Schädler, Marc René, Bernd T. Meyer, and Birger Kollmeier. "Spectro-temporal ...
Rashno, Elyas, Ahmad Akbari, and Babak Nasersharif. "A convolutional neural ...
Bahmaninezhad, Fahimeh, Chunlei Zhang, and John HL Hansen. "An investigation ...
Mesgarani, Nima, Malcolm Slaney, and Shihab A. Shamma. "Discrimination of ...
Ahmed, Ahmed Isam, John P. Chiverton, David L. Ndzi, and ...
Xu, Jinwei, Shijie Li, Jingfei Jiang, and Yong Dou. "A ...
Chakroun, Rania, and Mondher Frikha. "Robust text-independent speaker recognition with ...
Bian, Tengyue, Fangzhou Chen, and Li Xu. "Self-attention based speaker ...
Avila, Anderson R., Douglas O’Shaughnessy, and Tiago H. Falk. "Automatic ...
Lin, Ting, and Ye Zhang. "Speaker recognition based on long-term ...
Nunes, Joao Antônio Chagas, David Macêdo, and Cleber Zanchettin. "Am-mobilenet۱d: ...
Govindan, Sumithra Manimegalai, Prakash Duraisamy, and Xiaohui Yuan. "Adaptive wavelet ...
Guo, Yanhui, and Heng-Da Cheng. "New neutrosophic approach to image ...
]۴۳[ عفتی، میثم، رحمت مدندوست، و زینب فلاح زرجو بازکیایی. ...
]۴۴[ ولایتی، محمدحسین. "ارزیابی قابلیت ضریب مشارکت ژنراتورها به منظور ...
]۴۶[ حسینی، سیاوش، سعید ستایشی، غلامحسین روشنی، عبدالحمید زاهدی، و ...
Hirsch, Hans-Günter, and David Pearce. "The Aurora experimental framework for ...
TIMIT dataset, available online on: https://catalog.ldc.upenn.edu/LDC۹۳S۱. Last accessed at ۱۴ ...
NOISEX-۹۲ noise dataset, available online on: http://spib.linse.ufsc.br/noise.html. Last accessed at ...

نمایش کامل مراجع