تشخیص جنسیت صدا با استفاده از شبکه های عصبی عمیق

  • سال انتشار: 1401
  • محل انتشار: دومین کنفرانس بین المللی مهندسی و علوم کامپیوتر
  • کد COI اختصاصی: ICCSE02_009
  • زبان مقاله: فارسی
  • تعداد مشاهده: 238
دانلود فایل این مقاله

نویسندگان

سیدامیررضا کبودیان

دانشجوی کارشناسی مهندسی کامپیوتر، دانشکده فنی مهندسی، واحد خوراسگان، دانشگاه آزاد اسلامی، اصفهان، ایران

نیما رجائیان

دانشکده مهندسی برق، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران،عضو مرکز تحقیقات پردازش دیجیتال و بینایی ماشین، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران

چکیده

تشخیص جنسیت صدا نقش مهمی در سیستم های پردازش گفتار و سیستم تشخیص هویت مبتنی بر صدا دارد. با توجه به رشد فوقالعاده فناوری های هوش مصنوعی و سیستم های کامپیوتری می توان با استفاده از شبکه های عصبی عمیق داده های صوت را برای تشخیص جنسیت گوینده طبقه بندی کرد. سیستم تشخیص جنسیت صدا با لهجه و زبان انگلیسی پیش ازاین ، موردبررسی و پیاده سازی قرارگرفته است اما باوجود تفاوت بسیار زیاد بین زبان، گویش و لهجه انگلیسی و فارسی این کار بر روی مجموعه داده فارسی برای اولین بار انجام گرفت . در این پژوهش از شبکه های عصبی عمیق ۱D-CNN, ۲D-CNN, LSTM, GRU, SimpleRNN برای دسته بندی مجموعه داده صوت به منظور تشخیص و بازشناسانی استفاده شده که درنهایت شبکه عصبی ۲D-CNN با درصد صحت ۹۹% بهترین شبکه عصبی برای تشخیص جنسیت صدا شناخته شد.

کلیدواژه ها

پردازش سیگنال صوتی ، تشخیص جنسیت صدا، شبکه های عصبی عمیق ، یادگیری عمیق ، پردازش گفتار

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.