Preprocessing of Aspect-based English Telugu Code Mixed Sentiment Analysis

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: انگلیسی
مشاهده: 347

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JITM-15-6_002

تاریخ نمایه سازی: 29 فروردین 1402

چکیده مقاله:

Extracting sentiments from the English-Telugu code-mixed data can be challenging and is still a relatively new research area. Data obtained from the Twitter API has to be in English-Telugu code-mixed language. That data is free-form text, noisy, lexicon borrowings, code-mixed, phonetic typing and misspelling data. The initial step is language identification and sentiment class labels assigned to each tweet in the dataset. The second step is the data normalization task, and the final step is classification, which can be achieved using three different methods: lexicon, machine learning, and deep learning. In the lexicon-based approach, tokenize each tweet with its language tag. If the language tag is in Telugu, transliterate the roman script into native Telugu words. Words are verified with TeluguSentiWordNet, and the Telugu sentiments are extracted, and English SentiWordNets are used to extract sentiments from the English tokens. In this paper, the aspect-based sentiment analysis approach is suggested and used with normalized data. In addition, deep learning and machine learning techniques are applied to extract sentiment ratings, and the results are compared to prior work.

نویسندگان

Kodirekka

S. Rajasekhar Reddy University College of Engineering & Technology, Acharya Nagarjuna University, Andhra Pradesh, India

Srinagesh

Department of Computer Science and Engineering, RVR & JC College of Engineering, Andhra Pradesh, India.

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Arun, K., & Srinagesh, A. (۲۰۲۰). Multilingual Twitter sentiment analysis ...
  • Bahrawi, N. (۲۰۱۹). Sentiment analysis using random forest algorithm-online social ...
  • Das, A., & Gambäck, B. (۲۰۱۲, July). Sentimantics: conceptual spaces ...
  • Divyapushpalakshmi, M., & Ramalakshmi, R. (۲۰۲۱). An efficient sentimental analysis ...
  • Farisi, A. A., Sibaroni, Y., & Al Faraby, S. (۲۰۱۹, ...
  • Ghosh, S., Ghosh, S., & Das, D. (۲۰۱۷). Sentiment identification ...
  • Gundapu, S., & Mamidi, R. (۲۰۲۰). gundapusunil at SemEval-۲۰۲۰ Task ...
  • Gundapu, S., & Mamidi, R. (۲۰۲۰). Word level language identification ...
  • Gundapu, S., & Mamidi, R. (۲۰۲۱). Multichannel LSTM-CNN for Telugu ...
  • Habibi, S. (۲۰۱۶). Smart innovation systems for indoor environmental quality ...
  • Indra, S. T., Wikarsa, L., & Turang, R. (۲۰۱۶, October). ...
  • Kodirekka, A., & Srinagesh, A. (۲۰۲۲). Sentiment Extraction from English-Telugu ...
  • Kusampudi, S. S. V., Sathineni, P., & Mamidi, R. (۲۰۲۱, ...
  • Malgaonkar, S., Khan, A., & Vichare, A. (۲۰۱۷, September). Mixed ...
  • Naidu, R., Bharti, S. K., Babu, K. S., & Mohapatra, ...
  • Padmaja, S., Bandu, S., & Fatima, S. S. (۲۰۲۰). Text ...
  • Padmaja, S., Fatima, S., Bandu, S., Nikitha, M., & Prathyusha, ...
  • Padmaja, S., Nikitha, M., Bandu, S., & Sameen Fatima, S. ...
  • Saikrishna, K. S. B. S., & Subalalitha, C. N. (۲۰۲۲). ...
  • Srinivasan, R., & Subalalitha, C. N. (۲۰۲۱). Sentimental analysis from ...
  • Thamaraimanalan, T., RA, L., & RM, K. (۲۰۲۱). Multi biometric ...
  • Thara, S., & Poornachandran, P. (۲۰۲۲). Social media text analytics ...
  • نمایش کامل مراجع