ابهام زدایی معانی کلمات با استفاده از روشهای آماری

  • سال انتشار: 1388
  • محل انتشار: پانزدهمین کنفرانس کامپیوتر سالانه انجمن کامپیوتر ایران
  • کد COI اختصاصی: CSICC15_157
  • زبان مقاله: فارسی
  • تعداد مشاهده: 2255
دانلود فایل این مقاله

نویسندگان

محمود سلطانی

دانشکده برق و کامپیوتر دانشگاه تهران

هشام فیلی

دانشکده برق و کامپیوتر، دانشگاه تهران

چکیده

در این مقاله یک روش آماری برای ابهامزدایی معنایی کلمات به منظور استفاده در یک مترجم ماشینی انگلیسی به فارسی ارائه شده است. درهنگام خواندن یک متن انگلیسی به دفعات با کلماتی روبرو میشویم که برای آنها در زبان فارسی بیش از یک معنی معادل وجود دارد. این نوع چند معنایی و یا به عبارت دیگر ابهام برای سیستمهای مترجم ماشینی چالشی بزرگ بهشمار میآید. در این مقاله روشی برای ابهامزدایی معنایی کلمات به منظور استفاده در یک مترجم ماشینی انگلیسی به فارسی ارانه شده است. در این روش ابتدا معانی مختلف کلمات مبهم از یک فرهنگلغت دوزبانه (انگلیسی به فارسی) استخراج شده و سپس براساس اطلاعات آماری استخراج شده از یک پیکره متنی تکزبانه (فارسی) گراف وابستگی معنایی کلمات ساخته شده است. این گراف شامل معانی مختلف کلمات مبهم جمله و وابستگی معنایی بین آنها است. همچنین روش جدیدی به منظور تقویت معیار وابستگی معنایی کلمات ارائه شده است. یکی از ویژگیهای این روش عدم وابستگی آن به زبانهای مبدا و مقصد میباشد و میتواند برای هر جفت زبان در ترجمه ماشینی مورد استفاده قرار گیرد.

کلیدواژه ها

ابهامزدایی معنایی واژگان ، ترجمه ماشینی، وابستگی معنایی کلمات وپیکره متنی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.