تشخیص ارقام گفتاری فارسی با استفاده از شبکه های یادگیری عمیق

سال انتشار: 1402
محل انتشار: فصلنامه مدل سازی در مهندسی، دوره: 21، شماره: 74
کد COI اختصاصی: JR_JME-21-74_011
زبان مقاله: فارسی
تعداد مشاهده: 159

دانلود فایل این مقاله

نویسندگان

سحر زربافی

دانشگاه سمنان، دانشکده برق و کامپبوتر

کورش کیانی

دانشکده مهندسی برق و کامپیوتر دانشگاه سمنان

راضیه راستگو

دانشکده برق و کامپیوتر دانشگاه سمنان

چکیده

طبقه بندی ارقام جدا شده چالش اساسی برای بسیاری از سیستم های طبقه بندی گفتار است. درحالی که کارهای زیادی بر روی زبان های گفتاری انجام شده است، تحقیقات محدودی در مورد داده های رقمی گفتاری فارسی در ادبیات گزارش شده است و تمامی تحقیقات مربوط به اعداد صفر تا ۹ بوده است. برای این منظور، پایگاه داده ی جامعی شامل بازه ی وسیعتری از اعداد با مشارکت ۱۴۵ نفر که شامل هفتاد نفر مرد و ۷۵ نفر زن هستند، جمع آوری گردیده است. پایگاه داده مذکور، بازه عددی صفر تا ۵۹۹ را پوشش می دهد. پس از پیش پردازش داده ها، داده های صوتی تبدیل به طیف نگار مل شده و برای استخراج ویژگی و طبقه بندی داده ها از شبکه عصبی کانولوشنی و نیز یک مدل ترکیبی شامل مدل ترنسفورمر و حافظه کوتاه و بلند مدت استفاده گردیده است. نتایج تجربی بر روی پایگاه داده جمع آوری شده حاکی از دقت اعتبارسنجی ۹۸.۰۳ درصد می باشد. آنالیزهای مختلفی نیز بر روی آزمایش و آزمون مدل ها صورت گرفته است.

کلیدواژه ها

ارقام گفتاری, طبقه بندی, ارقام گفتاری فارسی, طیف نگار مل, پایگاه داده, ترنسفورمر

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.