بهبود مبتنی بر تخصیص پنهان دریکله برای دسته بندی متون با استفاده از تکنیک های پردازش متن

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 506

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CONFITC04_149

تاریخ نمایه سازی: 6 مهر 1397

چکیده مقاله:

فرایند داده کاوی به زیر شاخه های گوناگونی تقسیم میشود که یکی از این زیر شاخه ها فرایند داده کاوی از متن هاستکه به نام پردازش متن نیز شناخته می شود. پردازش متن با استفاده از تکنیک های گوناگون، اطلاعات مفید را از داده هایمتنی غیرساخت یافته یا نیمه ساخت یافته استخراج می کند. از آنجا که پردازش متن در موقعیت های مختلفی به استخراجدانش از متن می پردازد، تکنیک های گوناگونی برای آن وجود دارد. یکی از این موارد تکنیک NGram است که از طریق پیشینه کلمه، به مدلسازی می پردازد. این تکنیک توانسته است به بهبود کاوش متن کمک کند. در این مقاله بااستفاده از روش NGram، اقدام به ساخت مدل موضوعی نمودیم که همزمان با استخراج کلمه های کلیدی سند به دسته بندی آنها می پردازد. در فرایند مدلسازی از پارامترهای مخفی استفاده میکنیم که این پارامترها شاخص هایی هستند کهبه مدل کمک می کنند تا با استفاده از پیشینه کلمات و جملات به دسته بندی مطلوب اسناد بپردازد. مجموعه دادهای کهدر این مقاله استفاده شده است شامل متون نظرسنجی میباشد که در سال 2015 نظرسنجی شده است که این داده ها یکیاز داده های مشهور در زمینه دسته بندی متون می باشد. هدف، بهبود روش تخصیص پنهان دریکله است. نتایج روشهایمشابه با روش پیشنهادی مقایسه شده است که روش پیشنهادی توانسته عمکرد بهتری را نسبت به روش های قبلی داشته باشد.

نویسندگان

زهرا کوهنورد

دپارتمان مهندسی کامپیوتر، دانشکده فنی و مهندسی، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران