به کارگیری متنکاوی در ابهام زدایی از هم نویسه های غیر تکیه ای در زبان فارسی
محل انتشار: اولین کنفرانس داده کاوی ایران
سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 3,628
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IDMC01_083
تاریخ نمایه سازی: 20 خرداد 1386
چکیده مقاله:
هم نویسه ها کلمات با ساختار نوشتاری یکسان و تلفظ متفاوت در زبان های مختلف یکی از مهم ترین لایه های ابهام را در متن کاوی ایجاد می کنند . بارزترین کاربرد بازشناسی هم نویسه ها از یکدیگر در سیستم های تبدیل متن به گفتار است . اگرچه تعداد کلمات هم نویسه نسبت به کل کلمات موجود و مورد استفاده در یک زبان بسیار کم است ولی تلفظ ناصحیح هم نویسه ها به جای یکدیگر موجب ابهام زیادی در درک متن می گردد . سیستم های تبدیل متن به گفتار در زبان های مختلف از این مشکل رنج میبرند، ولی در برخی از زبان ها مانند انگلیسی تعداد هم نویسه ها اندک، و مشکلی که ایجاد می کنند نسبتا حاد نیست ولی در برخی از زبان ها مانند زبان فارسی به دلیل ساختار خاص آن، تعداد هم نویسه ها نسبتا زیاد است و مشکلی که ایجاد می کنند قابل اغماض نیست . تعداد زیادی از هم نویسه ها از ساختار زبان ناشی می شوند به عبارت دیگر هم نویسه ها در هر زبان به آن زبان خاص وابسته اند . با این اوصاف می توان دریافت بازشناسی هم نویسه ها نیز تا حدود زیادی وابسته به زبان خواهد بود . در زبان های دیگر روش های متن کاوی زیادی برای ابهام زدایی از هم نویسه ها تجربه شده است ولی تلاشی در این زمینه برای زبان فارسی انجام نشده است .
در این مقاله به مبحث بازشناسی هم نویسه های غیر تکیه ای در زبان فارسی می پردازیم . ابتدا مشکلات موجود در بازشناسی خودکار هم نویسه ها را در زبان فارسی بررسی می کنیم و سپس روشی مبتنی بر لیست های تصمیم گیری حاصل از پیشامد های مدل های زبانی هم جواری ) ) n-gram و مدل های زبانی باهم آیی را برای بازشناسی خودکار هم نویسه ها در زبان فارسی به کار می بریم و با ارزیابی نتایج حاصل از این روش کارایی روش را بررسی خواهیم کرد . چون تاکنون مبحث بازشناسی خودکار هم نویسه در زبان فارسی مورد توجه نبوده و فعالیتی در این حوزه انجام نشده است، فعالیت اخیر می تواند راهگشای انجام این امر و به تبع آن بهبود دقت سیستم های تبدیل متن به گفتار فارسی باشد
کلیدواژه ها:
نویسندگان
بهروز مینایی بیدگلی
استادیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر
احمد اکبری
دانشیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر
مهدی محسنی
رشته مهندسی کامپیوتر ، دانشگاه علم و صنعت ایران