Thematic Similarity Multiple-Choice Question Answering with Doc۲Vec: A Step Toward Metaphorical Language Processing
- سال انتشار: 1399
- محل انتشار: مجله بین المللی ارتباطات و فناوری اطلاعات، دوره: 12، شماره: 2
- کد COI اختصاصی: JR_ITRC-12-2_005
- زبان مقاله: انگلیسی
- تعداد مشاهده: 276
نویسندگان
Sharif University of Technology
Iran Telecommunication Research Center
Sharif University of Technology
چکیده
This paper reports our improvement over the previous benchmark of the task of answering poetic verses' thematic similarity multiple-choice questions (MCQs). In this experiment, we have trained a Doc۲Vec model on a corpus of Persian poems and proceeded to use the trained model to get the vector representations of the poetic verses. Subsequently, the poetic verse among the options with the highest cosine similarity to the stem verse was selected as the correct answer by the model. This model managed to answer ۳۸% of the questions correctly, which was an improvement of ۶% over the previous benchmark. Provided that a large-scale thematic similarity MCQ dataset is developed, the performance of a language representation model on this task could be considered as a novel benchmark to measure the capacity of a model to understand metaphorical language.کلیدواژه ها
Doc۲Vec, MCQ answering, computational linguistics, poetry, figurative speech, digital humanities.اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.