Text Mining of a Classic Novel Using Machine Learning Techniques

  • سال انتشار: 1402
  • محل انتشار: شانزدهمین کنفرانس بین المللی انجمن ایرانی تحقیق در عملیات
  • کد COI اختصاصی: ICIORS16_354
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 205
دانلود فایل این مقاله

نویسندگان

Mahshad Haghi

Department of Industrial & Systems Engineering, Tarbiat Modares University, Tehran, Iran

چکیده

Nowadays, there is an abundance of textual data available for analysis. Common applications of text analysis include sentiment analysis of user comments and differentiating between legitimate and spam emails. However, text mining for extracting insights from novels remains relatively rare. Since novels represent valuable resources, simplifying the process of comprehending novels can offer significant benefits. This paper focuses on the text of the renowned novel called "Anne of Green Gables". A variety of machine learning algorithms, including natural language processing techniques, are applied to discover valuable insights from the text. Our analysis encompasses identifying the most frequently occurring words and their associated parts of speech in this novel, utilizing Named Entity Recognition (NER) to detect proper nouns, employing data visualization to enhance understanding, and extracting a summary of the part of this novel. This study showcases the informative potential of employing machine learning techniques in the analysis of literary works.

کلیدواژه ها

Text mining, Machine learning, Natural language processing (NLP), Visualization

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.