Stance Detection Dataset for Persian Tweets

  • سال انتشار: 1401
  • محل انتشار: مجله بین المللی ارتباطات و فناوری اطلاعات، دوره: 14، شماره: 4
  • کد COI اختصاصی: JR_ITRC-14-4_006
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 318
دانلود فایل این مقاله

نویسندگان

Mohammad Hadi Bokaei

ICT Research Institute (ITRC) Tehran, Iran

Mojgan Farhoodi

ICT Research Institute (ITRC) Tehran, Iran

Mona Davoudi

ICT Research Institute (ITRC) Tehran, Iran

چکیده

Stance detection aims to identify an author's stance towards a specific topic which has become a critical component in applications such as fake news detection, claim validation, author profiling, etc. However, while the stance is easily detected by humans, machine learning models are falling short of this task. In the English language, due to having large and appropriate e datasets, relatively good accuracy has been achieved in this field, but in the Persian language, due to the lack of data, we have not made significant progress in stance detection. So, in this paper, we present a stance detection dataset that contains ۳۸۱۳ labeled tweets. We provide a detailed description of the newly created dataset and develop deep learning models on it. Our best model achieves a macro-average F۱-score of ۵۸%. Moreover, our dataset can facilitate research in some fields in Persian such as cross-lingual stance detection, author profiling, etc.

کلیدواژه ها

stance detection, fake news, social media, twitter, Persian dataset, author profiling

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.