Detecting Hate-speech in the Text using Natural Language Processing and Machine Learning

  • سال انتشار: 1400
  • محل انتشار: کنفرانس ملی آخرین دستاوردهای مهندسی داده و دانش و محاسبات نرم
  • کد COI اختصاصی: CONFSKU01_049
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 448
دانلود فایل این مقاله

نویسندگان

Ebrahim Khalil Abbasi

Farhangian University Tehran, Iran

Roya Amini

Freelance Researcher Kurdistan, Iran

چکیده

Automatic hate-speech detection from big and almost growing content of social media is a challenge. In the recent years it has been proven that the use of Natural LanguageProcessing methods in combination with Machine Learning algorithms to detect hate-speech from other instances of offensive language outperforms other approaches. This paper empirically studies the application of AdaBoost meta-algorithm to boost performance of hate-speech detection problem in conjunction with Support Vector Machine and Decision Tree as weak learners. The execution of AdaBoost with Support Vector Machine as the classifier on a Twitter dataset achieved higher accuracy in comparison to Decision Tree as the classifier. Moreover, it is observed that the accuracy of the AdaBoost classification method is higher than the Logistic Regression algorithm, which has thehighest accuracy among all the classification algorithms for the hate-speech problem in the given Twitter dataset.

کلیدواژه ها

Machine Learning; Hate Speech Detection; Natural Language Processing; Ensemble Classification; AdaBoost

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.