Persian Word Sense Disambiguation using LDA topic model

  • سال انتشار: 1394
  • محل انتشار: کنفرانس بین المللی علوم و مهندسی
  • کد COI اختصاصی: ICESCON01_0495
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 1158
دانلود فایل این مقاله

نویسندگان

Babak Masoudi

Department of information technology, Payamenoor university(PNU),P.O.Box, 59391-3993 Tehran,I.R of Iran

Aboozar Zandvakili

Department of Computer Engineering, College of Engineering, jiroft Branch, Islamic Azad University, jiroft Iran

چکیده

The Word sense disambiguation is a prominent issue in natural language processing. In this paper, a model is proposed for Persian word sense disambiguation using extraction of new features. To generate this model two groups of features are utilized including words and signs accompanying ambiguous word as well as features derived using topic modeling schemes. A topic model is a probabilistic model for extracting abstract of topics which are included in documents of a corpuse. In the paper at hand unsupervised Latent Dirichlet Allocation method is exploited. Experimental results for four ambiguous popular Persian words extracted from research center of intelligent signal processing corpus, show a precision of 939. It demonstrates the effect of this method on finding proper sense of words.

کلیدواژه ها

Latent Dirichlet Allocation, multi-sense, word sense disambiguation, topic modeling

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.