Improving Persian Word Embeddings Using Cross-Lingual Joint Space
- سال انتشار: 1398
- محل انتشار: دهمین کنفرانس فناوری اطلاعات و دانشIKT2019
- کد COI اختصاصی: ICIKT10_059
- زبان مقاله: انگلیسی
- تعداد مشاهده: 807
نویسندگان
Student Computational Linguistics Group Sharif University of Technology Tehran, Iran
Assistant Professor Information Technology Department ICT Research Institute Tehran, Iran
Associate Professor Computer Engineering Department Sharif University of Technology Tehran, Iran
چکیده
In this paper, cross-lingual word embeddings method is introduced to improve quality of monolingual Persian word embeddings. The main idea of the paper is that as Persian is low resource language, a high resource language like English can enhance Persian word embeddings in a cross-lingual space. Therefore, English monolingual word embeddings are used to create a joint space with Persian one. MUSE and VecMap method as the two state of the art approaches are applied to transfer Persian word embeddings to English word embeddings space in a supervised mode. A 5k bilingual English-Persian is utilized as the supervision. In addition, the English Kudkudak evaluation benchmark is customized to assess Persian monolingual word embeddings. The customized benchmark evaluates word embeddings in three tasks, namely categorization, analogy, and word similarity. According to analysis, the cross-lingual transfer can increase monolingual Persian word embeddings without any extra train data. In comparison with MUSE, VecMap can align Persian word embeddings to English in a more effective way. As a result, VecMap outperforms MUSE in enhancing Persian word embeddings. The Persian cross-lingual word embeddings show improvements in categorization and analogy tasks.کلیدواژه ها
مقالات مرتبط جدید
- سکته مغزی و علائم آن و درمان های پیشگیرانه
- علل افزایش فشار خون و روش های کنترل آن
- مروری بر شناسایی و جداسازی میکروارگانسیم های مهارکننده رشد قارچ های بیماری زای خاک
- New coating of dental fixtures using composite and ceramic biomaterials
- Exploring the Gender Differences Actual Attitude and Behavior With Respect to the COVID – ۱۹ Pandemic
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.