Learning to Exploit Different Translation Resources for Cross Language Information Retrieval

  • سال انتشار: 1392
  • محل انتشار: مجله بین المللی ارتباطات و فناوری اطلاعات، دوره: 6، شماره: 1
  • کد COI اختصاصی: JR_ITRC-6-1_006
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 177
دانلود فایل این مقاله

نویسندگان

Hosein Azarbonyad

Azadeh Shakery

Heshaam Faili

چکیده

One of the important factors that affects the performance of Cross Language Information Retrieval(CLIR) is the quality of translations being employed in CLIR. In order to improve the quality of translations, it is important to exploit available resources efficiently. Employing different translation resources with different characteristics has many challenges. In this paper, we propose a method for exploiting available translation resources simultaneously. This method employs Learning to Rank(LTR) for exploiting different translation resources. To apply LTR methods for query translation, we define different translation relation based features in addition to context based features. We use the contextual information contained in translation resources for extracting context based features.The proposed method uses LTR to construct a translation ranking model based on defined features. The constructed model is used for ranking translation candidates of query words. To evaluate the proposed method we do English-Persian CLIR, in which we employ the translation ranking model to find translations of English queries and employ the translations to retrieve Persian documents. Experimental results show that our approach significantly outperforms single resource based CLR methods.

کلیدواژه ها

Cross longuage information Retrieval, learning to Rank, Translation Resource Combination

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.