تصحیح املا خطا های تایپی حساس به زمینه مبتنی بر یادگیری عمیق

  • سال انتشار: 1401
  • محل انتشار: نخستین کنفرانس ملی مدل سازی و شبیه سازی سیستم های پویا
  • کد COI اختصاصی: MSCS01_074
  • زبان مقاله: فارسی
  • تعداد مشاهده: 365
دانلود فایل این مقاله

نویسندگان

مهسا جعفرزاده

کارشناسی ارشد، گروه کامپیوتر، دانشکده فنی مهندسی، دانشگاه آپادانا، شیراز، ایرا ن

کیمیا بازرگان لاری

استادیار ،گروه کامپیوتر، دانشکده فنی مهندسی، دانشگاه آپادانا، شیراز، ا یرا ن

چکیده

هدف این مطالعه حل مشکل خطا ی املایی حساس به متن برای اسناد انگلیسی است. دو نوع خطای املایی در زبان انگلیسی وجود دارد: خطاهای املایی غیرکلمه ای و خطاهای املایی حساس به متن. خطا های املایی غیرکلمه ای به سادگی قابل تصحیح هستند، زیرا تنها با تطبیق کلمات موجود در جملات با کلمات موجود در فرهنگ لغت می توان آن ها را تشخیص داد. با این حال، تشخیص خطاهای املایی حساس به متن دشوار می باشد زیرا رابطه بین کلمه ای که باید تصحیح شود و کلمات اطراف آن باید شناخته شود. خطاهای املایی در هر زمینه ای که از اطلاعات متنی استفاده می کند نویز در نظر گرفته می شود و پیش پردازش از طریق تصحیح سند برای به حداقل رساندن این مشکل ضروری است. خطاهای املایی حساس به زمینه عبارتند از: خطاهای همفون که استفاده نادرست از کلماتی است که صداهای مشابه دارند، اما املای متفاو تی دارند ، خطاهای تایپی ناشی از زدن یک کلید نادرست روی صفحه کلید ، خطاهای گرامری که زمانی رخ می دهد که کاربر رخ می دهد. قواعد گرامریصحیح را نمیداند، و خطاهای مرز ی کلمات متقاطع که از فاصله گذاری نادرست بین کلمات ناشی می شوداین مطالعه بر روی اشتباهات تایپی تمرکز دارد. مشکل خطای املایی حساس به متن با استفاده از روش یادگیری عمیق، که یک روش آماری موجود نیست، حل میشود. رویکرد تصحیح مبتنی بر مدل زبان یادگیری عمیق به چهار بخش تقسیم میشود، یعنی تصحیح بر اساس اطلاعات جاسازی کلمه، اطلاعات جاسازی متنی، یک مدل زبان رگرسیون خودکار AR و یک مدل زبان رمزگذاری خودکار AE . در این مطالعه، بهترین عملکرد تصحیح برای رویکرد مبتنی بر مدل زبان AE به دست آمد و عملکرد آن را از طریق یک آزمون تصحیح دقیق تا یید شده است.

کلیدواژه ها

تصحیح خطای املایی ، پردازش زبان طبیعی، رگرسیون خودکار، رمزگذاری خودکار

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.