دسته بندی موضوعی متون فارسی بر اساس روش آنالیز معنایی پنهان احتمالاتی بهبود یافته
محل انتشار: دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران
سال انتشار: 1385
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 3,519
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ACCSI12_283
تاریخ نمایه سازی: 23 دی 1386
چکیده مقاله:
با توجه به رشد روزافزون حجم متون و لزوم دستیابی مناسب و استخراج اطلاعات از آنها، دسته بندی بدون سرپرست متون اهمیت زیادی پیدا کرده است. روش« آنالیز معنایی پنهان احتمالاتی » (PLSA) یکی از روشهایی است که در سالهای اخیر در دستهبندی ،متون مورد توجه قرار گرفته است. روشPLSA که بر پایة « آنالیز معنایی پنهان » یا (LSA) است، دارای زیربنای آماری محکمی بوده و در زمینههای مختلف کار با متون عملکرد بسیار خوبی داشته است. در این مقاله روشPLSA به منظور بیان مناسب متون در فضای کاهش بعد یافتة معنایی و نیز دسته بندی متون مورد استفاده قرار گرفت و روشی برای بهبود مدل PLSA با حذف متغیرهای پنهان نامناسب در حین تعلیم پیشنهاد شد. آزمایشات بر روی تعدادی متن فارسی شامل ۶ موضوع کلی و دارای برچسب موضوعی که از پیرة متنی« فار سدات » انتخاب شده بودند، صورت گرفت. با استفاده از روش PLSA به همراه الگوریتم سادهk-means به ۸۷,۲۳ % بیشتر از روش۶,۰۹ % صحت دستهبندی دست یافتیم که LSA در کنار مدل k-meansبود. همچنین توانستیم با استفاده از روشPLSAبهبود یافتة پیشنهادی صحت دستهبندی را نسبت به روش PLSA ، ۳,۷۵ % افزایش دهیم.
کلیدواژه ها:
دسته بندی متون-آنالیز معنایی پنهان-آنالیز معنایی پنهان احتمالاتی-متغیر پنهان
نویسندگان
طاهره امامی آزادی
دانشجوی کارشناسی ارشد مهندسی پزشکی، بیوالکتریک– دانشگاه صنعتی امیرکبیر
فرشاد الماس گنج
استادیار دانشکده مهندسی پزشکی – دانشگاه صنعتی امیرکبیر