ارائه مدل دسته بندی متون فارسی با استفاده از ترکیب مدل گوسین وبیزین

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 912

فایل این مقاله در 5 صفحه با فرمت PDF و WORD قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SPIS05_006

تاریخ نمایه سازی: 7 بهمن 1398

چکیده مقاله:

هدف از دسته بندی اسناد، نگاشت اسناد متنی به چند دسته از قبل تعیین شده است. به دلیل رشد روز افزون متون، توجه زیادی به دسته بندی اسناد شده است. اما تجمیع نظر کارشناسان، امری چالش پذیر بوده و باعث اتلاف زمان می شود. بنابراین در سال های اخیر الگوریتم های گوناگونی برای دسته بندی خودکار اسناد، پیشنهاد شده است که البته اکثر آن ها در زمینه متون لاتین ارائه گردیده است و اخیرا به بررسی متون چینی و عربی و فارسی توجه شده است. هدف این مقاله، بررسی دسته بندی داده های فارسی می باشد که از ترکیب دو الگوریتم بیزین وگوسین، برای بهره بردن از مزیت های این دو الگوریتم، استفاده کرده ایم. در روش ارائه شده، دسته بندی متون فارسی به وسیله ی پیکره ی همشهری 2 مورد آزمایش قرار داده شده است و با روش نرمال شده ی تکرار کلمه درمعکوس تکرارسند (TF-IDF) به ویژگی ها وزن داده می شود و سپس مدل پیشنهادی پیاده سازی می شود. روش پیشنهادی برای دسته بندی این پیکره به 6 دسته، به دقت 93.04 درصد رسیده است که در مقایسه با سایر روش های ارائه شده برای متون فارسی دقت بیشتری داشته است.

کلیدواژه ها:

دسته بندی متون فارسی ، تئوری بیزین ، تئوری گوسین ، فرکانس کلمه و معکوس سند

نویسندگان

مهسا قاسمی

دانشجوی کارشناسی ارشد دانشگاه صنعتی شاهرود

فاطمه جعفری نژاد

عضو هیئت علمی دانشگاه صنعتی شاهرود