CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه مدل دسته بندی متون فارسی با استفاده از ترکیب مدل گوسین وبیزین

عنوان مقاله: ارائه مدل دسته بندی متون فارسی با استفاده از ترکیب مدل گوسین وبیزین
شناسه ملی مقاله: SPIS05_006
منتشر شده در پنجمین کنفرانس پردازش سیگنال و سیستم های هوشمند در سال 1398
مشخصات نویسندگان مقاله:

مهسا قاسمی - دانشجوی کارشناسی ارشد دانشگاه صنعتی شاهرود
فاطمه جعفری نژاد - عضو هیئت علمی دانشگاه صنعتی شاهرود

خلاصه مقاله:
هدف از دسته بندی اسناد، نگاشت اسناد متنی به چند دسته از قبل تعیین شده است. به دلیل رشد روز افزون متون، توجه زیادی به دسته بندی اسناد شده است. اما تجمیع نظر کارشناسان، امری چالش پذیر بوده و باعث اتلاف زمان می شود. بنابراین در سال های اخیر الگوریتم های گوناگونی برای دسته بندی خودکار اسناد، پیشنهاد شده است که البته اکثر آن ها در زمینه متون لاتین ارائه گردیده است و اخیرا به بررسی متون چینی و عربی و فارسی توجه شده است. هدف این مقاله، بررسی دسته بندی داده های فارسی می باشد که از ترکیب دو الگوریتم بیزین وگوسین، برای بهره بردن از مزیت های این دو الگوریتم، استفاده کرده ایم. در روش ارائه شده، دسته بندی متون فارسی به وسیله ی پیکره ی همشهری 2 مورد آزمایش قرار داده شده است و با روش نرمال شده ی تکرار کلمه درمعکوس تکرارسند (TF-IDF) به ویژگی ها وزن داده می شود و سپس مدل پیشنهادی پیاده سازی می شود. روش پیشنهادی برای دسته بندی این پیکره به 6 دسته، به دقت 93.04 درصد رسیده است که در مقایسه با سایر روش های ارائه شده برای متون فارسی دقت بیشتری داشته است.

کلمات کلیدی:
دسته بندی متون فارسی، تئوری بیزین، تئوری گوسین، فرکانس کلمه و معکوس سند

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/983113/