شناسایی جملات هم ترجمه با استفاده از طبقهبند آنتروپی بیشینه
- سال انتشار: 1392
- محل انتشار: دوازدهمین کنفرانس ملی سیستم های هوشمند ایران
- کد COI اختصاصی: ICS12_115
- زبان مقاله: فارسی
- تعداد مشاهده: 574
نویسندگان
دانشجوی کارشناسی ارشد، بخش مهندسی کامپیوتر، دانشگاه شیراز ، شیراز،
دانشیار، بخش مهندسی کامپیوتر، دانشگاه شیراز ، شیراز
چکیده
منبع اصلی رویکردهای رایج امروزی در ترجمه ماشینی، متون دوزبانه در انداز ههای بسیار بزرگ است که اصطلاحا پیکره موازی خوانده می شوند. اما اکثر زبان های طبیعی با کمبود پیکره های موازی روبه رو هستند. بنابراین تلاش برای ساخت پیکره های موازیبیش تر همچنان یک ضرورت مهم در حوزه ترجمه ماشینی محسوب می شود. شناسایی جملات هم ترجمه که جملات موازی نیز خوانده می شوند، رکن مشترک در اکثر تلاش ها برای ساخت خودکار پیکره های موازی است. ما در اینجا از طبقه بند آنتروپی بیشینه جهت شناسایی جملات همترجمه استفاده می کنیم. همچنین برای این طبقه بند از ویژگی های عمومی جمله و ویژگی های مبتنی برهمترازی در سطح کلمه بین دو جمله استفاده می کنیم. همترازی در سطح کلمه جملات با استفاده از ابزار متن بازGiza++ انجام می شود. این ویژگی ها به تفکیک شرح داده می شوند و تأثیری که بر نتیجه طبقه بند می گذارند، بررسی می شود. نتایج ارزیابی نشان می دهد که طبقه بند آنتروپی بیشینه طراحی شده می تواند با دقت بالایی جملات را به جملات موازی و جملات غیر موازی طبقه بن دی کند.کلیدواژه ها
طبقه بند آنتروپی بیشینه، پیکره موازی، همترازی در سطح کلمه، جفت جمله موازی، ترجمه ماشینی آماریمقالات مرتبط جدید
- تحلیل مقایسه ای معیارهای ارزیابی نظریه ذهن: پل زدن بین شناخت انسانی و مصنوعی
- تولید محتوا با قدرت هوش مصنوعی: تحول بازاریابی دیجیتال
- دوخت تصاویر تهیه شده توسط پهپاد با استفاده از یادگیری عمیق بدون نظارت
- Stitching of drone images using unsupervised deep learning
- بررسی کاربردهایی از منطق فازی در حل مسائل مهندسی عمران
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.