A Distributed Approach for Spam Collection and Detection Using Honeypots

  • سال انتشار: 1393
  • محل انتشار: اولین کنفرانس بین المللی مهندسی دانش،اطلاعات و نرم افزار
  • کد COI اختصاصی: ICKIS01_014
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 1298
دانلود فایل این مقاله

نویسندگان

Moein Sarvi

Electricity and Computer Faculty Tarbiat Modares University Tehran, Iran

Ali Yazdiane Varjani

Electricity and Computer Faculty Tarbiat Modares University Tehran, Iran

Mohammad Ali Nazeri

Electricity and Computer Faculty Khorasgan (Isfahan) Branch Islamic Azad University

چکیده

Junk mail or spam is one of the serious problems of users in their daily electronic communications. Low working efficiency, disk space occupation, and phishing attacks are justsome spam consequences. With the advent of spam, the researchers have attemted at introduce methods to deal with thisphenomenon. Text-based Spam filtering can be considered as a text categorization problem. The most majority works in thisarea are dedicated to machine learning-based techniques. Despite the excellent results, machine learning algorithms are time consuming and highly dependent on the training data. In thispaper a method has been proposed for distributed spam detection base on honeypot traps and header features. Thisapproach obtains fresh training data through hybrid honeypot which deceives spammers in fidelity manner without any footprint. The accuracy of spam detection is high while using only header features along distributed classifier based on Naive Bayes algorithm. The results show increasing the number of classifier lead to improve accuracy measures like Recall and Precision.

کلیدواژه ها

Spam, Honeypot, machine learning, Naïve Bayes, Honeyd

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.