Thematic Similarity Multiple-Choice Question Answering with Doc۲Vec: A Step Toward Metaphorical Language Processing

  • سال انتشار: 1399
  • محل انتشار: مجله بین المللی ارتباطات و فناوری اطلاعات، دوره: 12، شماره: 2
  • کد COI اختصاصی: JR_ITRC-12-2_005
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 276
دانلود فایل این مقاله

نویسندگان

Soroosh Akef

Sharif University of Technology

Mohammad Hadi Bokaei

Iran Telecommunication Research Center

Hossein Sameti

Sharif University of Technology

چکیده

This paper reports our improvement over the previous benchmark of the task of answering poetic verses' thematic similarity multiple-choice questions (MCQs). In this experiment, we have trained a Doc۲Vec model on a corpus of Persian poems and proceeded to use the trained model to get the vector representations of the poetic verses. Subsequently, the poetic verse among the options with the highest cosine similarity to the stem verse was selected as the correct answer by the model. This model managed to answer ۳۸% of the questions correctly, which was an improvement of ۶% over the previous benchmark. Provided that a large-scale thematic similarity MCQ dataset is developed, the performance of a language representation model on this task could be considered as a novel benchmark to measure the capacity of a model to understand metaphorical language.

کلیدواژه ها

Doc۲Vec, MCQ answering, computational linguistics, poetry, figurative speech, digital humanities.

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.