ParsNER-Social: A Corpus for Named Entity Recognition in Persian Social Media Texts
محل انتشار: مجله هوش مصنوعی و داده کاوی، دوره: 9، شماره: 2
سال انتشار: 1400
نوع سند: مقاله ژورنالی
زبان: انگلیسی
مشاهده: 394
فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JADM-9-2_005
تاریخ نمایه سازی: 20 مرداد 1400
چکیده مقاله:
Named Entity Recognition (NER) is one of the essential prerequisites for many natural language processing tasks. All public corpora for Persian named entity recognition, such as ParsNERCorp and ArmanPersoNERCorpus, are based on the Bijankhan corpus, which is originated from the Hamshahri newspaper in ۲۰۰۴. Correspondingly, most of the published named entity recognition models in Persian are specially tuned for the news data and are not flexible enough to be applied in different text categories, such as social media texts. This study introduces ParsNER-Social, a corpus for training named entity recognition models in the Persian language built from social media sources. This corpus consists of ۲۰۵,۳۷۳ tokens and their NER tags, crawled from social media contents, including ۱۰ Telegram channels in ۱۰ different categories. Furthermore, three supervised methods are introduced and trained based on the ParsNER-Social corpus: Two conditional random field models as baseline models and one state-of-the-art deep learning model with six different configurations are evaluated on the proposed dataset. The experiments show that the Mono-Lingual Persian models based on Bidirectional Encoder Representations from Transformers (MLBERT) outperform the other approaches on the ParsNER-Social corpus. Among different Configurations of MLBERT models, the ParsBERT+BERT-TokenClass model obtained an F۱-score of ۸۹.۶۵%.
کلیدواژه ها:
نویسندگان
M. Asgari-Bidhendi
Computer Engineering School, Iran University of Science and Technology, Tehran, Iran.
B. Janfada
Computer Engineering School, Iran University of Science and Technology, Tehran, Iran.
O. R. Roshani Talab
Computer Engineering School, Iran University of Science and Technology, Tehran, Iran.
B. Minaei-Bidgoli
School of Computer Engineering, Iran University of Science and Technology, Tehran, Iran.
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :