ارزیابی فنون طبقه بندی در تشخیص وب سایت های جعلی مبتنی بر داده کاوی

  • سال انتشار: 1395
  • محل انتشار: اولین کنفرانس بین المللی دستاوردهای نوین پژوهشی در مهندسی برق و کامپیوتر
  • کد COI اختصاصی: CBCONF01_0169
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1229
دانلود فایل این مقاله

نویسندگان

زینب نظامی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر (نرم افزار)، دانشگاه اصفهان، اصفهان

احمد براآنی دستجردی

دانشیار، دانشکده مهندسی کامپیوتر (نرم افزار)، دانشگاه اصفهان، اصفهان

چکیده

کشف دانش از مجموعه داده های بزرگ، حاصل پردازش های متنوعی با نام داده کاوی است. امروزه کاربرد داده کاوی درحوزه های حساسی همچون امنیت بسیار رو به گسترش است. وب سایت های جعلی به دلیل تعداد عظیم تراکنش هایبرخطی که روزانه صورت می گیرد، یکی از چالش های امنیتی مهم برای جامعه رایانه ای است. از سوی دیگر، با توجه به روندافزایشی تعداد این وب سایت ها نیاز به راه حل های هوشمند بیش از پیش احساس می شود. در همین راستا، استفاده ازالگوریتم ها طبقه بندی به منظور پیش بینی، در حل مسأله تشخیص وب سایت جعلی هم نتایجی دقیق فراهم می کند(احتمال خطاها را کاهش می دهد) و هم سبب صرفه جویی در زمان و هزینه می شود. در این مقاله با استفاده از نرم افزار وکابه ارزیابی الگوریتم های طبقه بندی مختلف برای پیش بینی وب سایت های جعلی می پردازیم. الگوریتم های مورد بررسیشامل درخت تصمیم J48 ، بیزی ساده، شبکه عصبی چندلایه، جنگل تصادفی، ماشین بردار پشتیبان و AdaBoost است ومجموعه داده انتخابی از مخزن مجموعه داده های یادگیری ماشین دانشگاه کالیفرنیا با نام مجموعه داده وب سایت های جعلیانتخاب شده است. نتایج حاصل از اجرای الگوریتم ها نشان می دهد که الگوریتم جنگل تصادفی از نظر دقت و زمان ساختمدل از سایر الگوریتم ها بهتر است.

کلیدواژه ها

طبقه بندی، داده کاوی، جعل وب سایت، الگوریتم درخت تصمیم J48 ، الگوریتم شبکه عصبی چندلایه، ماشین بردار پشتیبان، نرم افزار وکا

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.