Improving Persian Word Embeddings Using Cross-Lingual Joint Space

  • سال انتشار: 1398
  • محل انتشار: دهمین کنفرانس فناوری اطلاعات و دانشIKT2019
  • کد COI اختصاصی: ICIKT10_059
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 814
دانلود فایل این مقاله

نویسندگان

Mohammad Aliramezani

Student Computational Linguistics Group Sharif University of Technology Tehran, Iran

Mohammad Hadi Bokaei

Assistant Professor Information Technology Department ICT Research Institute Tehran, Iran

Hossein Sameti

Associate Professor Computer Engineering Department Sharif University of Technology Tehran, Iran

چکیده

In this paper, cross-lingual word embeddings method is introduced to improve quality of monolingual Persian word embeddings. The main idea of the paper is that as Persian is low resource language, a high resource language like English can enhance Persian word embeddings in a cross-lingual space. Therefore, English monolingual word embeddings are used to create a joint space with Persian one. MUSE and VecMap method as the two state of the art approaches are applied to transfer Persian word embeddings to English word embeddings space in a supervised mode. A 5k bilingual English-Persian is utilized as the supervision. In addition, the English Kudkudak evaluation benchmark is customized to assess Persian monolingual word embeddings. The customized benchmark evaluates word embeddings in three tasks, namely categorization, analogy, and word similarity. According to analysis, the cross-lingual transfer can increase monolingual Persian word embeddings without any extra train data. In comparison with MUSE, VecMap can align Persian word embeddings to English in a more effective way. As a result, VecMap outperforms MUSE in enhancing Persian word embeddings. The Persian cross-lingual word embeddings show improvements in categorization and analogy tasks.

کلیدواژه ها

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.