Using Synchronous TAG for Source-Side Reordering in SMT

  • سال انتشار: 1392
  • محل انتشار: مجله بین المللی ارتباطات و فناوری اطلاعات، دوره: 5، شماره: 4
  • کد COI اختصاصی: JR_ITRC-5-4_006
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 131
دانلود فایل این مقاله

نویسندگان

Amin Mansouri

Hakimeh Fadaei

Heshaam Faili

Mohsen Arabsorkhi

چکیده

Recent efforts in machine translation try to enrich statistical methods by syntactic information of source and target languages. In this paper we present a hybrid machine translator, which combines rule-based and statistical models in a serial manner. This system uses synchronous tree adjoining grammar (STAG) to benefit the context sensitivity of this formalism. In this system, a set of reordering rules in STAG formalism is automatically extracted from a parallel corpus. These rules are used to change the word orders of the source sentence to match the word ordersin the target language. The restructured sentences are then translated to target language using a statistical approach. Experiments are carried out on three different datasets for English-Persian translation. Experimental results show that the presented reordering method combined with conventional or monotone phrase-based SMT, improves the translation quality respectively by ۱.۸ and ۰.۵۵ points regarding BLEU score.

کلیدواژه ها

Statistical Machine Translation, Reordering Rules, Tree Adjoining Grammar

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.