ارائه روش ترکیبی مبتنی بر یادگیری ماشین برای دسته بندی خودکار متون اینترنتی

سال انتشار: 1398
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 55

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_CSJI-4-4_003

تاریخ نمایه سازی: 14 بهمن 1402

چکیده مقاله:

با افزایش حجم اطلاعات در دسترس بر روی اینترنت و پایگاه های داده، نیاز به ابزارهایی که بتوانند در جستجو، پالایش و مدیریت منابع کمک کنند، ضروری است. برای رسیدن به این منظور در این پژوهش، از دسته بندی متون با استفاده از الگوریتم های یادگیری ماشین استفاده شده است. دسته بندی یا رده بندی متون، به اختصاص یک سند متنی به یک طبقه مناسب از پیش تعیین شده گفته می شود. چالش اصلی دسته بندی متون، بزرگی فضای ویژگی ها در این گونه مسائل است. در بسیاری از الگوریتم های موجود چنین فضای بزرگی منجر به کند شدن بسیار زیاد دسته بند و ناکارآمدی آن خواهد شد. علاوه بر این ویژگی هایی وجود دارند که نه تنها باعث دسته بندی بهتر متون نمی شوند بلکه دقت دسته بندی را نیز کاهش می دهند. در این پژوهش جهت دست یافتن به کارایی مناسب ابتدا آماده سازی متون یا مجموعه داده انجام شده است. برای این منظور ابتدا اسناد متنی را به شکل یکسان (حروف کوچک) تبدیل کرده و سپس نتایج در دو حالت، بدون حذف کلمات متوقف کننده و با حذف کلمات متوقف کننده به دست آمده است. این سیستم شامل دو مرحله، پردازش متن و دسته بندی متن می باشد. در مرحله اول برای استخراج ویژگی ها از معیارهای شاخص گذاری مختلفی نظیر bigram، trigram و quadgram استفاده شده، سپس در مرحله دوم برای آموزش سیستم از الگوریتم یادگیری ماشین W-SMO استفاده شده است. به منظور ارزیابی و مقایسه نتایج دو معیار دقت و بازخوانی،Macro-F۱ و Micro-F۱ برای روش های مختلف شاخص گذاری محاسبه شده اند. نتایج آزمایش ها که بر روی ۷۶۷۶ سند متنی استاندارد خبرگزاری رویترز انجام گرفت، نشان داد که روش پیشنهادی بهترین کارایی را نسبت به الگوریتم های W-j۴۸، Naïve Bayes، K-NNو W-LADTREE دارد. بررسی نتایج نشان می دهد که روش پیشنهادی باعث بهبود دقت میکرو تا ۹۵.۱۷% در دسته بندی متون می گردد.

نویسندگان

محمد رستمی

دانشجوی دکتری مهندسی نرم افزار و الگوریتم دانشگاه کاشان، اصفهان، ایران

حسین ابراهیم پور کومله

استادیار دانشکده مهندسی برق و کامپیوتر دانشگاه کاشان، اصفهان، ایران