شناسایی جملات هم ترجمه با استفاده از طبقهبند آنتروپی بیشینه
- سال انتشار: 1392
- محل انتشار: دوازدهمین کنفرانس ملی سیستم های هوشمند ایران
- کد COI اختصاصی: ICS12_115
- زبان مقاله: فارسی
- تعداد مشاهده: 598
نویسندگان
دانشجوی کارشناسی ارشد، بخش مهندسی کامپیوتر، دانشگاه شیراز ، شیراز،
دانشیار، بخش مهندسی کامپیوتر، دانشگاه شیراز ، شیراز
چکیده
منبع اصلی رویکردهای رایج امروزی در ترجمه ماشینی، متون دوزبانه در انداز ههای بسیار بزرگ است که اصطلاحا پیکره موازی خوانده می شوند. اما اکثر زبان های طبیعی با کمبود پیکره های موازی روبه رو هستند. بنابراین تلاش برای ساخت پیکره های موازیبیش تر همچنان یک ضرورت مهم در حوزه ترجمه ماشینی محسوب می شود. شناسایی جملات هم ترجمه که جملات موازی نیز خوانده می شوند، رکن مشترک در اکثر تلاش ها برای ساخت خودکار پیکره های موازی است. ما در اینجا از طبقه بند آنتروپی بیشینه جهت شناسایی جملات همترجمه استفاده می کنیم. همچنین برای این طبقه بند از ویژگی های عمومی جمله و ویژگی های مبتنی برهمترازی در سطح کلمه بین دو جمله استفاده می کنیم. همترازی در سطح کلمه جملات با استفاده از ابزار متن بازGiza++ انجام می شود. این ویژگی ها به تفکیک شرح داده می شوند و تأثیری که بر نتیجه طبقه بند می گذارند، بررسی می شود. نتایج ارزیابی نشان می دهد که طبقه بند آنتروپی بیشینه طراحی شده می تواند با دقت بالایی جملات را به جملات موازی و جملات غیر موازی طبقه بن دی کند.کلیدواژه ها
طبقه بند آنتروپی بیشینه، پیکره موازی، همترازی در سطح کلمه، جفت جمله موازی، ترجمه ماشینی آماریمقالات مرتبط جدید
- The Impact of Artificial Intelligence on Staff Training in Organizations
- هوش مصنوعی از گذشته تا حال حاضر و چشم انداز پیشروی آن
- Using genetic data to personalize content in social space with the help of CNN deep neural network
- مدلسازی بیومکانیکی مبتنی بر هوش مصنوعی: فرصت ها و چالش ها در توسعه تجهیزات پزشکی پیشرفته
- مقایسه سه مدل یادگیری ماشین در تشخیص بیماری قلبی: Logistic Regression ، Decision Tree ، Random Forest
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.