سیستم هوشمند فیلتر کردن هرزنامه ها با استفاده از الگوریتم ماشین بردار پشتیبان، شاخص گذری N-Gram و وزن دهی TF-IDF

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,028

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CCITC01_032

تاریخ نمایه سازی: 27 آبان 1393

چکیده مقاله:

با توجه به بکارگیری مستمر تکنیک های جدید توسط تولید ک نندگان هرزنامه ها، نیاز بیش از پیش به استفاده از تکنیک های جدید و هوشمند مقابله با این هرزنامه ها احساس می شود. در حال حاضر استفاده از الگوریتم های یادگیری ماشین یکی از مؤثرترین و محبوب ترین روش ها در فیلتر کردن خودکار هرزنامه ها می باشد. در این مقاله مدل جدیدی برای فیلتر کردن خودکار هرزنامه ها ارائه شده است. برای پیاده سازی از نرم افزار RapidMiner استفاده شده است. این مدل شامل دو فاز پیش پردازش مجموعه داده و فاز دسته بندی ایمیل ها می باشد. فاز پیش پردازش شامل مراحل آماده سازی م جموعه داده، شاخص گذاری و وزن دهی شاخص ها می باشد. مرحله آماده سازی شامل بخش های یک شکل سازی متن، تقسیم متن به واحدهای با معنی مثل ک لمه، حذف کلمات متوقف کننده و علائم نگارشی می باشد. ما در مدل پیشنهادی برای شاخص گذاری در فاز پیش پردازش از روش N-gram و برای وزن دهی به شاخص ها از فیلتر TF-IDF استفاده کرده ایم. در فاز دوم، برای آموزش مدل جهت دسته بندی، از الگوریتم ماشین بردار پشتیبان استفاده شده است. به منظور ارزیابی و مقایسه نتایج، معیارهای صحت، دقت، بازخوانی و پاارمتر (F(1 محاسبه شده اند. نتایج آزمایش ها که بر روی مجموعه داده های LingSpam و SpamAssassin انجام گرفت نشان می دهد که مدل پیشنهادی ما کارایی بهتری نسبت به الگوریتم های دیگر روی این مجموعه داده ها دارد.

کلیدواژه ها:

نویسندگان

فاطمه حیدری

کارشناسی ارشد نرم افزار، جهاد دانشگاهی خوزستان، اهواز، ایران

علیرضا عصاره

دانشیار، گروه کامپیوتر دانشگاه شهید چمران، اهواز، ایران

بیتا شادگار

استادیار، گروه کامپیوتر دانشگاه شهید چمران، اهواز، ایران