طراحی و پیاده سازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانه ای
- سال انتشار: 1389
- محل انتشار: پژوهش های زبان شناسی، دوره: 2، شماره: 3
- کد COI اختصاصی: JR_JRLU-2-3_001
- زبان مقاله: فارسی
- تعداد مشاهده: 258
نویسندگان
استادیار دانشگاه پیام - گروه علمی مهندسی کامپیوتر و فناوری اطلاعات
چکیده
دادگان های گفتاری نقش مهمی را در تحقیقات و پیاده سازی های مربوط با زبان شناسی رایانه ای ایفا می کنند. در این مقاله، پس از مطالعه واحدهای آوایی مختلف قابل استفاده برای این منظور، مراحل تهیه یک دادگان دایفون ویژه زبان فارسی ارایه می شود. برای این منظور، در ابتدا پایگاه واژگانی که دایفون های زبان را شامل شوند، تهیه گردید. سپس نرم افزاری طراحی و پیاده سازی شد که با گرفتن صورت های واجی واژه ها، دایفون هایی را که قرار است از آن استخراج شوند، مشخص کند. در مرحله بعد سیگنال های گفتاری واژه ها ضبط گردید و نکات افزایش بررسی گردید. در پایان نیز جداسازی دایفون ها و تهیه دادگان مورد نظر صورت پذیرفت. برای افزایش دقت دادگان تهیه شده، مراحل جداسازی دایفون ها از سیگنال های گفتاری ضبط شده با استفاده از سه روش شنوایی، بررسی سیگنال زمانی و مطالعه طیف نگاشت، ارزیابی و از ترکیب هر سه روش برای افزایش دقت دادگان استفاده شد.کلیدواژه ها
دادگان دایفون, زبان شناسی رایانه ای, واحد آوایی, تقطیع گفتاراطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.