فیلتر کردن ایمیل های اسپم با استفاده از یک الگوریتم منفرد و روش وزن دهی TF-IDF

  • سال انتشار: 1395
  • محل انتشار: اولین همایش ملی مهندسی کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: CEITECH01_018
  • زبان مقاله: فارسی
  • تعداد مشاهده: 547
دانلود فایل این مقاله

نویسندگان

سیدمجتبی غرابی

دانشجو کارشناسی ارشد، گروه مهندسی کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد خمین

حمید پایگذار

عضو هییت علمی دانشکده فنی مهندسی، گروه مهندسی کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد خمین

چکیده

امروزه هرزنامه ها مانند سیلی عظیم، و با کپی های فراوان از پیامهای مشابه اینترنت را فرا گرفته اند. و تلاش دارند که پیام خود رابه مردمی که به هیچ طریق دیگری حاضر به دریافت آن پیامها نیستند تحمیل کنند. بیشتر اسپم ها حاوی تبلیغات تجاری هستند کهاین تبلیغات بیشتر به تبلیغ محصولات شبهه برانگیز یا سرویس های شبه قانونی می پردازند و یا ادعاهایی را مبنی بر پولدار کردن شمامطرح می سازند. هزینه ارسال هرزنامه ها برای فرستنده بسیار ناچیز است و بیشتر هزینه ها توسط دریافت کنندگان اسپم یا واسطه هاپرداخت می شود. اسپم اثری بیش از مزاحمت برای استفاده کنندگان اینترنت دارد و بطور جدی بازدهی شبکه و سرویس دهندگانایمیل را تحت تاثیر قرار می دهد. و این به این دلیل است که فرستندگان اسپم از هزینه بسیار پایین ایمیل استفاده می کنند و صدهاهزار یا حتی میلیون ها ایمیل را در یک زمان ارسال می کنند. حمل ههای اسپم پهنای باند زیادی را می گیرد، صندوق های پستی را پرمی کند و زمان خوانندگان ایمیل را تلف می کند. امروزه دیدگاه تکنولوژیکی و فناوری موضوع بسیار مهمی بنام هرزنامه را مطرح نمودهکه از نظر قانونی باید نسبت به آن جلوگیری شود. اگر چه سال های اخیر معرفی تعداد زیادی از الگوریتم های دسته بندی متنیمطرح شده است ولی متن کاوی نیازمند یک سری مراحل پیش پردازش، الگوریتم موثرکارآمد و یادگیرنده سریع می باشند. در اینمقاله با آزمایش های که بر روی مجموعه داده اسپم انجام شده یک روش با قابلیت اعتماد بالا و نرخ خطای پایین را ارایه نموده ایم.

کلیدواژه ها

اسپم، هرزنامه، تشخیص هرزنامه، یادگیری ماشین، داده کاوی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.