PerGOLD: Identification of offensive language in Persian tweets: leveraging crowdsourcing

Fatemeh Jafarinejad; Marziea Rahimi; Maryam Khodabakhsh; Seyedehfatemeh Karimi

PerGOLD: Identification of offensive language in Persian tweets: leveraging crowdsourcing

محل انتشار: مجله مهندسی کامپیوتر و دانش، دوره: 8، شماره: 1

سال انتشار: 1404

نوع سند: مقاله ژورنالی

زبان: انگلیسی

مشاهده: 68

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2264897

شناسه ملی سند علمی:

JR_CKE-8-1_004

تاریخ نمایه سازی: 28 اردیبهشت 1404

چکیده مقاله:

It is concerning that the growing popularity of social networks is encouraging violence or inciting offense toward other people. An attempt has been made in the past several years to detect offensive language in social media posts. Nonetheless, the majority of studies focus on recognizing offensive language in English. Moreover, dataset labeling emerges as a crucial and fundamental step for training high-quality models, considering the increasing use of artificial intelligence and machine learning tools. Utilizing crowdsourcing platforms is an efficient and optimal method that can be used for data labeling. This approach uses human resources who are sufficiently knowledgeable about the topic to label the data. In this paper, we introduce PerGOLD, a new Persian General Offensive Language Dataset, in which we use an event-based data collection methodology to detect offensive language in Persian Twitter. To access labeled training data, we build a crowdsourcing platform to benefit from human input. We labeled ۱۳,۷۱۶ tweets, and according to the obtained results, ۳۴% of them were labeled as offensive language. Finally, we evaluated the efficiency of these data by applying some classic machine learning models (LR, SVM) and transformer-based language models (RoBERTa, ParsBERT). The obtained F۱-score of the best model (ParsBERT) was ۸۵.۴%.

کلیدواژه ها:

Offensive Language ، Labeling ، Crowdsourcing ، Natural Language Processing

نویسندگان

Fatemeh Jafarinejad

Department of the Computer Engineering, Shahrood University of Technology (SUT), Shahrood, Semnan, Iran

Marziea Rahimi

Department of the Computer Engineering, Shahrood University of Technology (SUT), Shahrood, Semnan, Iran

Maryam Khodabakhsh

Department of the Computer Engineering, Shahrood University of Technology (SUT), Shahrood, Semnan, Iran

Seyedehfatemeh Karimi

Department of the Computer Engineering, Shahrood University of Technology (SUT), Shahrood, Semnan, Iran

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

F. Poletto, V. Basile, M. Sanguinetti, C. Bosco, and V. ...
Z. Talat and D. Hovy. (۲۰۱۶, Jun.). Hateful symbols or ...

نمایش کامل مراجع