PerBOLD: A Big Dataset of Persian Offensive language on Instagram Comments

  • سال انتشار: 1402
  • محل انتشار: فصلنامه مهندسی برق دانشگاه تبریز، دوره: 53، شماره: 2
  • کد COI اختصاصی: JR_TJEE-53-2_007
  • زبان مقاله: فارسی
  • تعداد مشاهده: 170
دانلود فایل این مقاله

نویسندگان

مریم خدابخش

Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran.

فاطمه جعفری نژاد

Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran.

مرضیه رحیمی

Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran.

مسعود قیومی

Institute for Humanities and Cultural Studies, Ghom, Iran.

چکیده

Easy access to social media enables users to express their opinions and ideology about various topics like news, videos, and personalities freely, without any fear, and often in an offensive manner. It is a vital task to detect comments with offensive language on social media platforms and relies on a complete and comprehensive tagged dataset. Therefore, in this paper, we introduce and make publicly available PerBOLD, a new Persian comment dataset collected from Instagram as a popular platform among Iranian. We follow a two-level manual annotation process in order to determine whether a comment has offensive language or not and fine-grained tags of different types of offensive language. Furthermore, we present some interesting aspects of data and analysis them.

کلیدواژه ها

Keywords Natural language processing, offensive language, social media, annotation

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.