Phrase Alignments in Parallel Corpus Using Bootstrapping Approach

  • سال انتشار: 1393
  • محل انتشار: مجله بین المللی ارتباطات و فناوری اطلاعات، دوره: 6، شماره: 3
  • کد COI اختصاصی: JR_ITRC-6-3_007
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 128
دانلود فایل این مقاله

نویسندگان

Leila Tavakoli

Heshaam Faili

چکیده

Word choice and word order problems are considered as fundamental barriers in statistical machine translation (SMT). These barriers are more pronounced in deficiencies of training corpus. Phrase-Based SMT has advantages in word choice and local word ordering process; so phrase alignment is effective in improving translation quality. In this paper, an approach for automatic alignment is proposed in which boosts up the machine translation quality. Since, alignment problem is more problematic with lack of training data, so we make corpus of phrase alignment with high precision. For this purpose, a novel phrase alignment approach in a bootstrapping manner is proposed. By bootstrapping on alignment model via using a number of features, the accuracy of the phrase table is improved iteratively. These features are based on the phrase table extracted from Moses, IBM Model ۳ alignment probabilities, Google translator and fertility of candidates. Our experiments on English-Persian translation show an improvement about ۴.۱۷ BLEU points over the PB-SMT as baseline system.

کلیدواژه ها

Phrase-Based SMT, scarce training corpus, log-linear models, Maximum Entropy, Bootstrapping Approach, Fertility

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.