ارائه مدل دسته بندی متون فارسی با استفاده از ترکیب مدل گوسین وبیزین
محل انتشار: پنجمین کنفرانس پردازش سیگنال و سیستم های هوشمند
سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,070
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
SPIS05_006
تاریخ نمایه سازی: 7 بهمن 1398
چکیده مقاله:
هدف از دسته بندی اسناد، نگاشت اسناد متنی به چند دسته از قبل تعیین شده است. به دلیل رشد روز افزون متون، توجه زیادی به دسته بندی اسناد شده است. اما تجمیع نظر کارشناسان، امری چالش پذیر بوده و باعث اتلاف زمان می شود. بنابراین در سال های اخیر الگوریتم های گوناگونی برای دسته بندی خودکار اسناد، پیشنهاد شده است که البته اکثر آن ها در زمینه متون لاتین ارائه گردیده است و اخیرا به بررسی متون چینی و عربی و فارسی توجه شده است. هدف این مقاله، بررسی دسته بندی داده های فارسی می باشد که از ترکیب دو الگوریتم بیزین وگوسین، برای بهره بردن از مزیت های این دو الگوریتم، استفاده کرده ایم. در روش ارائه شده، دسته بندی متون فارسی به وسیله ی پیکره ی همشهری 2 مورد آزمایش قرار داده شده است و با روش نرمال شده ی تکرار کلمه درمعکوس تکرارسند (TF-IDF) به ویژگی ها وزن داده می شود و سپس مدل پیشنهادی پیاده سازی می شود. روش پیشنهادی برای دسته بندی این پیکره به 6 دسته، به دقت 93.04 درصد رسیده است که در مقایسه با سایر روش های ارائه شده برای متون فارسی دقت بیشتری داشته است.
کلیدواژه ها:
نویسندگان
مهسا قاسمی
دانشجوی کارشناسی ارشد دانشگاه صنعتی شاهرود
فاطمه جعفری نژاد
عضو هیئت علمی دانشگاه صنعتی شاهرود