طبقه بندی متون اخبار فارسی با الگوریتم کا-نزدیک ترین همسایگی Knn

سال انتشار: 1401
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 332

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICTBC06_048

تاریخ نمایه سازی: 1 اسفند 1401

چکیده مقاله:

برای دسته بندی متن از یادگیری و پردازش زبان طبیعی به طور گسترده ای استفاده می شود. به طور کلی هدف یک دسته بند متن، دسته بندی سندها در قالب تعداد مشخصی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک یاچند دسته قرار بگیرد. در این تحقیق اسناد یک پایگاه خبری مورد بررسی و به این سوال پاسخ داده می شود کهاین سند در کدام یک از دسته های خبری قرار می گیرد. روش پیشنهادی با در نظر داشتن ساختار کلمات فارسی، بردار ویژگی متون فارسی و الگوریتم knn اسناد پایگاه خبری را دسته بندی می کند. در این تحقیق مقادیر مختلف در بازه ۱ تا ۹ برای k آزمایش شد و در نهایت برای k بهینه، مقدار ۹ بدست آمد و اسناد در دسته های مجزا از هم طبقه بندی شدند. نتایج بدست آمده نشان می دهد که روش پیشنهادی این تحقیق دارای دقت ۷۷ درصدی در دسته بندی اسناد خبری می باشد.

کلیدواژه ها:

دسته بندی متون فارسی ، k- نزدیک ترین همسایگی ، الگوریتم knn ، پردازش زبان طبیعی ، الگوریتم یادگیری ماشین

نویسندگان

هادی وظیفه آبان

دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)

حامد مظفری

دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)