شناسایی جملات هم ترجمه با استفاده از طبقهبند آنتروپی بیشینه

  • سال انتشار: 1392
  • محل انتشار: دوازدهمین کنفرانس ملی سیستم های هوشمند ایران
  • کد COI اختصاصی: ICS12_115
  • زبان مقاله: فارسی
  • تعداد مشاهده: 568
دانلود فایل این مقاله

نویسندگان

علیمه زاری

دانشجوی کارشناسی ارشد، بخش مهندسی کامپیوتر، دانشگاه شیراز ، شیراز،

محمدهادی صدرالدینی

دانشیار، بخش مهندسی کامپیوتر، دانشگاه شیراز ، شیراز

چکیده

منبع اصلی رویکردهای رایج امروزی در ترجمه ماشینی، متون دوزبانه در انداز ههای بسیار بزرگ است که اصطلاحا پیکره موازی خوانده می شوند. اما اکثر زبان های طبیعی با کمبود پیکره های موازی روبه رو هستند. بنابراین تلاش برای ساخت پیکره های موازیبیش تر همچنان یک ضرورت مهم در حوزه ترجمه ماشینی محسوب می شود. شناسایی جملات هم ترجمه که جملات موازی نیز خوانده می شوند، رکن مشترک در اکثر تلاش ها برای ساخت خودکار پیکره های موازی است. ما در اینجا از طبقه بند آنتروپی بیشینه جهت شناسایی جملات همترجمه استفاده می کنیم. همچنین برای این طبقه بند از ویژگی های عمومی جمله و ویژگی های مبتنی برهمترازی در سطح کلمه بین دو جمله استفاده می کنیم. همترازی در سطح کلمه جملات با استفاده از ابزار متن بازGiza++ انجام می شود. این ویژگی ها به تفکیک شرح داده می شوند و تأثیری که بر نتیجه طبقه بند می گذارند، بررسی می شود. نتایج ارزیابی نشان می دهد که طبقه بند آنتروپی بیشینه طراحی شده می تواند با دقت بالایی جملات را به جملات موازی و جملات غیر موازی طبقه بن دی کند.

کلیدواژه ها

طبقه بند آنتروپی بیشینه، پیکره موازی، همترازی در سطح کلمه، جفت جمله موازی، ترجمه ماشینی آماری

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.