به کارگیری متنکاوی در ابهام زدایی از هم نویسه های غیر تکیه ای در زبان فارسی

بهروز مینایی بیدگلی; احمد اکبری; مهدی محسنی

به کارگیری متنکاوی در ابهام زدایی از هم نویسه های غیر تکیه ای در زبان فارسی

محل انتشار: اولین کنفرانس داده کاوی ایران

سال انتشار: 1386

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 3,796

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > متن کاوی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/33060

شناسه ملی سند علمی:

IDMC01_083

تاریخ نمایه سازی: 20 خرداد 1386

چکیده مقاله:

هم نویسه ها کلمات با ساختار نوشتاری یکسان و تلفظ متفاوت در زبان های مختلف یکی از مهم ترین لایه های ابهام را در متن کاوی ایجاد می کنند . بارزترین کاربرد بازشناسی هم نویسه ها از یکدیگر در سیستم های تبدیل متن به گفتار است . اگرچه تعداد کلمات هم نویسه نسبت به کل کلمات موجود و مورد استفاده در یک زبان بسیار کم است ولی تلفظ ناصحیح هم نویسه ها به جای یکدیگر موجب ابهام زیادی در درک متن می گردد . سیستم های تبدیل متن به گفتار در زبان های مختلف از این مشکل رنج میبرند، ولی در برخی از زبان ها مانند انگلیسی تعداد هم نویسه ها اندک، و مشکلی که ایجاد می کنند نسبتا حاد نیست ولی در برخی از زبان ها مانند زبان فارسی به دلیل ساختار خاص آن، تعداد هم نویسه ها نسبتا زیاد است و مشکلی که ایجاد می کنند قابل اغماض نیست . تعداد زیادی از هم نویسه ها از ساختار زبان ناشی می شوند به عبارت دیگر هم نویسه ها در هر زبان به آن زبان خاص وابسته اند . با این اوصاف می توان دریافت بازشناسی هم نویسه ها نیز تا حدود زیادی وابسته به زبان خواهد بود . در زبان های دیگر روش های متن کاوی زیادی برای ابهام زدایی از هم نویسه ها تجربه شده است ولی تلاشی در این زمینه برای زبان فارسی انجام نشده است . در این مقاله به مبحث بازشناسی هم نویسه های غیر تکیه ای در زبان فارسی می پردازیم . ابتدا مشکلات موجود در بازشناسی خودکار هم نویسه ها را در زبان فارسی بررسی می کنیم و سپس روشی مبتنی بر لیست های تصمیم گیری حاصل از پیشامد های مدل های زبانی هم جواری ) ) n-gram و مدل های زبانی باهم آیی را برای بازشناسی خودکار هم نویسه ها در زبان فارسی به کار می بریم و با ارزیابی نتایج حاصل از این روش کارایی روش را بررسی خواهیم کرد . چون تاکنون مبحث بازشناسی خودکار هم نویسه در زبان فارسی مورد توجه نبوده و فعالیتی در این حوزه انجام نشده است، فعالیت اخیر می تواند راهگشای انجام این امر و به تبع آن بهبود دقت سیستم های تبدیل متن به گفتار فارسی باشد

کلیدواژه ها:

متن کاوی ، هم نویسه ، لیست تصمیم گیری ، مدل زبان هم جواری ، مدل زبان با هم آیی

نویسندگان

بهروز مینایی بیدگلی

استادیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر

احمد اکبری

دانشیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر

مهدی محسنی

رشته مهندسی کامپیوتر ، دانشگاه علم و صنعت ایران