A Probabilistic Topic Model based on an Arbitrary-Length Co-occurrence Window
- سال انتشار: 1396
- محل انتشار: مجله بین المللی ارتباطات و فناوری اطلاعات، دوره: 9، شماره: 2
- کد COI اختصاصی: JR_ITRC-9-2_003
- زبان مقاله: انگلیسی
- تعداد مشاهده: 364
نویسندگان
چکیده
Probabilistic topic models have been very popular in automatic text analysis since their introduction. These models work based on word co-occurrence, but are not very flexible with respect to the context in which cooccurrence is considered. Many probabilistic topic models do not allow for taking local or spatial data into account. In this paper, we introduce a probabilistic topic model that benefits from an arbitrary-length co-occurrence window and encodes local word dependencies for extracting topics. We assume a multinomial distribution with Dirichlet prior over the window positions to let the words in every position have a chance to influence topic assignments. In the proposed model, topics being shown by word pairs have a more meaningful presentation. The model is applied on a dataset of 2000 documents. The proposed model produces interesting meaningful topics and reduces the problem of sparseness.کلیدواژه ها
probabilistic topic modeling, co-occurrence, context window, Gibbs sampling, generative modelsاطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.