سیستم هوشمند فیلتر کردن هرزنامه ها با استفاده از الگوریتم ماشین بردار پشتیبان، شاخص گذری N-Gram و وزن دهی TF-IDF
سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,182
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CCITC01_032
تاریخ نمایه سازی: 27 آبان 1393
چکیده مقاله:
با توجه به بکارگیری مستمر تکنیک های جدید توسط تولید ک نندگان هرزنامه ها، نیاز بیش از پیش به استفاده از تکنیک های جدید و هوشمند مقابله با این هرزنامه ها احساس می شود. در حال حاضر استفاده از الگوریتم های یادگیری ماشین یکی از مؤثرترین و محبوب ترین روش ها در فیلتر کردن خودکار هرزنامه ها می باشد. در این مقاله مدل جدیدی برای فیلتر کردن خودکار هرزنامه ها ارائه شده است. برای پیاده سازی از نرم افزار RapidMiner استفاده شده است. این مدل شامل دو فاز پیش پردازش مجموعه داده و فاز دسته بندی ایمیل ها می باشد. فاز پیش پردازش شامل مراحل آماده سازی م جموعه داده، شاخص گذاری و وزن دهی شاخص ها می باشد. مرحله آماده سازی شامل بخش های یک شکل سازی متن، تقسیم متن به واحدهای با معنی مثل ک لمه، حذف کلمات متوقف کننده و علائم نگارشی می باشد. ما در مدل پیشنهادی برای شاخص گذاری در فاز پیش پردازش از روش N-gram و برای وزن دهی به شاخص ها از فیلتر TF-IDF استفاده کرده ایم. در فاز دوم، برای آموزش مدل جهت دسته بندی، از الگوریتم ماشین بردار پشتیبان استفاده شده است. به منظور ارزیابی و مقایسه نتایج، معیارهای صحت، دقت، بازخوانی و پاارمتر (F(1 محاسبه شده اند. نتایج آزمایش ها که بر روی مجموعه داده های LingSpam و SpamAssassin انجام گرفت نشان می دهد که مدل پیشنهادی ما کارایی بهتری نسبت به الگوریتم های دیگر روی این مجموعه داده ها دارد.
کلیدواژه ها:
هرزنامه ، فیلتر ک ردن ، دسته بندی ایمیل ، TF-IDF(Term Frequency Inverse Document Frequency) ، N-gram ، یادگیری ماشین ، ماشین بردار پشتیبان
نویسندگان
فاطمه حیدری
کارشناسی ارشد نرم افزار، جهاد دانشگاهی خوزستان، اهواز، ایران
علیرضا عصاره
دانشیار، گروه کامپیوتر دانشگاه شهید چمران، اهواز، ایران
بیتا شادگار
استادیار، گروه کامپیوتر دانشگاه شهید چمران، اهواز، ایران