معرفی یک روش پیشنهاد کلمات جایگزین در تصحیح املایی زبان فارسی

  • سال انتشار: 1400
  • محل انتشار: چهارمین کنفرانس ملی فناوریهای نوین در مهندسی برق و کامپیوتر
  • کد COI اختصاصی: ICTI04_031
  • زبان مقاله: فارسی
  • تعداد مشاهده: 354
دانلود فایل این مقاله

نویسندگان

احسان باقری

دانشجوی کارشناسی ارشد IT، شرکت خدمات ماشینی تامین

چکیده

واژه پردازها، پایگاه های داده، موتورهای جستجو، حتی برنامه های نویسه خوان همگی امروزه بخشی جدایی ناپذیر از زندگی روزانه و کسب و کار محسوب می شوند. باید توجه داشت که نوشتن اشتباه از آنجا ناشی می شود که زبانی مانند فارسی با پیشینه تاریخی زیادی که دارد در خصوص آوای واژه های خود سخت گیری چندانی ندارد و همینطور لغات فارسی گاهی از ترکیب با چندین زبان مانند عربی با انگلیسی و غیره ایجاد شده اند که در طول چند صد سال به فارسی وارد شده اند. بنابراین کلمات با اینکه شبیه به هم تلفظ می شوند در عمل کاربردهای متفاوتی دارند. این مسائل باعث می شود افراد گاهی در این خصوص دچار اشتباه شوند. از این جهت پیشنهاد کلمات جایگزین برای برنامه های تصحیح املایی و جستجو همواره دارای اهمیت می باشد. در این نوشتار یک روش ابداعی و ترکیبی برای زبان فارسی در مورد پیشنهاد کلمات صحیح مبتنی بر دو الگوریتم Norvig و Soundex ارائه شده است که با فارسی سازی Soundex همراه می باشد. همچنین متعاقبا برنامه متن باز ایجاد گردیده است و سورس کد از طریق گیت هاب قابل دسترسی می باشد. این برنامه متفاوت با برنامه های مشابه بوده که عمدتا از روش فاصله کلمات استفاده می کنند و همینطور در عمل دامنه جالب تری از لغات را ارائه می کند.

کلیدواژه ها

تصحیح املایی، پیشنهاد کلمات برای اصلاح واژگان فارسی، ساندکس فارسی، ویراستاری، الگوریتم تصحیح لغات

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.