CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

معرفی یک روش پیشنهاد کلمات جایگزین در تصحیح املایی زبان فارسی

عنوان مقاله: معرفی یک روش پیشنهاد کلمات جایگزین در تصحیح املایی زبان فارسی
شناسه ملی مقاله: ICTI04_031
منتشر شده در چهارمین کنفرانس ملی فناوریهای نوین در مهندسی برق و کامپیوتر در سال 1400
مشخصات نویسندگان مقاله:

احسان باقری - دانشجوی کارشناسی ارشد IT، شرکت خدمات ماشینی تامین

خلاصه مقاله:
واژه پردازها، پایگاه های داده، موتورهای جستجو، حتی برنامه های نویسه خوان همگی امروزه بخشی جدایی ناپذیر از زندگی روزانه و کسب و کار محسوب می شوند. باید توجه داشت که نوشتن اشتباه از آنجا ناشی می شود که زبانی مانند فارسی با پیشینه تاریخی زیادی که دارد در خصوص آوای واژه های خود سخت گیری چندانی ندارد و همینطور لغات فارسی گاهی از ترکیب با چندین زبان مانند عربی با انگلیسی و غیره ایجاد شده اند که در طول چند صد سال به فارسی وارد شده اند. بنابراین کلمات با اینکه شبیه به هم تلفظ می شوند در عمل کاربردهای متفاوتی دارند. این مسائل باعث می شود افراد گاهی در این خصوص دچار اشتباه شوند. از این جهت پیشنهاد کلمات جایگزین برای برنامه های تصحیح املایی و جستجو همواره دارای اهمیت می باشد. در این نوشتار یک روش ابداعی و ترکیبی برای زبان فارسی در مورد پیشنهاد کلمات صحیح مبتنی بر دو الگوریتم Norvig و Soundex ارائه شده است که با فارسی سازی Soundex همراه می باشد. همچنین متعاقبا برنامه متن باز ایجاد گردیده است و سورس کد از طریق گیت هاب قابل دسترسی می باشد. این برنامه متفاوت با برنامه های مشابه بوده که عمدتا از روش فاصله کلمات استفاده می کنند و همینطور در عمل دامنه جالب تری از لغات را ارائه می کند.

کلمات کلیدی:
تصحیح املایی، پیشنهاد کلمات برای اصلاح واژگان فارسی، ساندکس فارسی، ویراستاری، الگوریتم تصحیح لغات

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1290778/