شناسایی لهجه های زبان فارسی مبتنی بر مدل بردار هویت

سال انتشار: 1398
محل انتشار: هشتمین کنفرانس ملی علوم و مهندسی کامپیوتر و فناوری اطلاعات
کد COI اختصاصی: CECCONF08_037
زبان مقاله: فارسی
تعداد مشاهده: 633

نویسندگان

دانشگاه صداو سیمای جمهوری اسلامی ایران

چکیده

سیستم شناسایی لهجه یکی از زمینه های پرکاربرد در پردازش گفتار است که لهجه یک گوینده را از روی صحبتش تشخیص میدهد. در این پژوهش دقت شناسایی برای 5 لهجه بومی زبان فارسی (ترکی ، تهرانی ، کردی، اصفهانی ،شمالی) با استفاده از ویژگیهای MFCC و MFCC+SDC و مدل سازهای قدرتمندی همچون GMM_UBM و بردار هویت و به دنبال آن توسط معیار معروف شباهت کسینوسی مورد ارزیابی قرار گرفت. نتایج نشان می دهد که استفاده از ویژگی MFCC+SDC و مدلساز بردار هویت می تواند دقت میانگین سیستم شناسایی لهجه را تا 66.08 درصد بالاببرد در حالیکه دقت میانگین برای مدل ساز 49.11 GMM_UBM درصد میباشد.

کلیدواژه ها

شناسایی لهجه بومی ، مدل GMM_UBM ، مدل بردار هویت

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.