دسته بندی موضوعی متون فارسی بر اساس روش آنالیز معنایی پنهان احتمالاتی بهبود یافته

سال انتشار: 1385
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 3,519

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ACCSI12_283

تاریخ نمایه سازی: 23 دی 1386

چکیده مقاله:

با توجه به رشد روزافزون حجم متون و لزوم دستیابی مناسب و استخراج اطلاعات از آنها، دسته بندی بدون سرپرست متون اهمیت زیادی پیدا کرده است. روش« آنالیز معنایی پنهان احتمالاتی » (PLSA) یکی از روشهایی است که در سالهای اخیر در دستهبندی ،متون مورد توجه قرار گرفته است. روشPLSA که بر پایة « آنالیز معنایی پنهان » یا (LSA) است، دارای زیربنای آماری محکمی بوده و در زمینههای مختلف کار با متون عملکرد بسیار خوبی داشته است. در این مقاله روشPLSA به منظور بیان مناسب متون در فضای کاهش بعد یافتة معنایی و نیز دسته بندی متون مورد استفاده قرار گرفت و روشی برای بهبود مدل PLSA با حذف متغیرهای پنهان نامناسب در حین تعلیم پیشنهاد شد. آزمایشات بر روی تعدادی متن فارسی شامل ۶ موضوع کلی و دارای برچسب موضوعی که از پیرة متنی« فار سدات » انتخاب شده بودند، صورت گرفت. با استفاده از روش PLSA به همراه الگوریتم سادهk-means به ۸۷,۲۳ % بیشتر از روش۶,۰۹ % صحت دستهبندی دست یافتیم که LSA در کنار مدل k-meansبود. همچنین توانستیم با استفاده از روشPLSAبهبود یافتة پیشنهادی صحت دستهبندی را نسبت به روش PLSA ، ۳,۷۵ % افزایش دهیم.

کلیدواژه ها:

دسته بندی متون-آنالیز معنایی پنهان-آنالیز معنایی پنهان احتمالاتی-متغیر پنهان

نویسندگان

طاهره امامی آزادی

دانشجوی کارشناسی ارشد مهندسی پزشکی، بیوالکتریک– دانشگاه صنعتی امیرکبیر

فرشاد الماس گنج

استادیار دانشکده مهندسی پزشکی – دانشگاه صنعتی امیرکبیر