مروری بر الگوریتم های شناسایی سیگنال گفتار

سال انتشار: 1397
محل انتشار: سومین کنفرانس بین المللی پژوهش های کاربردی در علوم و مهندسی
کد COI اختصاصی: CARSE03_171
زبان مقاله: فارسی
تعداد مشاهده: 1000

نویسندگان

کارشناسی ارشد، گروه کامپیوتر و برق، واحد قزوین، دانشگاه آزاد اسلامی قزوین، ایران

دانشیار، گروه کامپیوتر و برق، دانشگاه علم و صنعت ایران، تهران، ایران

چکیده

تشخیص گفتار فرآیندی است که در آن شخص بر اساس سیگنال های صوتی خود شناخته می شود. صدای انسانی برای هر فرد متمایز است. تشخیص صدا در شناسایی بیومتریک، زمینه های مربوط به امنیت، دسترسی از راه دور به کامپیوترها و غیره اعمال می شود. شناسایی گفتار به طور معمول به یکی از دو دسته روش آوایی و طیفی انجام می شود. در روش نخست، ویژگی های زمان-کوتاه طیف گفتار به صورت یک بردار چند بعدی استخراج می شود؛ سپس مدل آماری این ویژگی ها برای هر زبان بدست می آید. در روش دوم، گفتار با استفاده از مدل مخفی مارکوف یا هر بازشناس دیگر، به دنباله ای از نشانه ها یا آواها تقسیم می شود؛ سپس به یک مدل زبانی روی دنباله زبانی بدست آمده تعلیم داده می شود. این مقاله به مرور کلی از تکنیک های مختلفی که می تواند در تشخیص صدا مورد استفاده قرار گیرند، پرداخته است، مانند LPC, MFCC و LPCC برای استخراج ویژگی های صدا و GMM, HMM, SVM, VQ برای طبقه بندی ویژگی های صدا که امروزه به صورت چشم گیری مورد استفاده قرار می گیرند. همچنین به منظور انتخاب بهترین روش، مقایسه ای بر اساس ویژگی های هر کدام انجام می شود.

کلیدواژه ها

استخراج ویژگی، شناسایی سیگنال، فشرده سازی سیگنال، سیگنال گفتار

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.