تشخیص ربات های ناهنجار در پرس وجوهای موتور جستجو

  • سال انتشار: 1396
  • محل انتشار: فصلنامه پدافند الکترونیکی و سایبری، دوره: 5، شماره: 4
  • کد COI اختصاصی: JR_PADSA-5-4_007
  • زبان مقاله: فارسی
  • تعداد مشاهده: 485
دانلود فایل این مقاله

نویسندگان

محمدجواد سروقدمقدم

دانشگاه جامع امام حسین (ع)

مهدی نقوی

دانشگاه جامع امام حسین (ع)

مجید غیوری ثالث

دانشگاه جامع امام حسین (ع)

چکیده

موتورهای جستجو را میتوان بهترین ابزار کارآمد برای مدیریت، بازیابی و استخراج اطلاعات مهم از مجموعه عظیم دادههای وب معرفی کرد. این موتورها پهنه وسیع وب را بهطور زمانبندیشده پیمایش میکنند و به جمعآوری صفحات بیشمار ذخیرهشده در گوشه کنار وب میپردازند. ارائهدهندگان موتورهای جستجو همواره به دنبال بهبود ارتباط نتایج و کاهش زمان پاسخ به کاربران هستند، اما هر دو این موارد میتواند تحت تاثیر ترافیک خودکار ارسالشده از سوی رباتها قرار گیرد. در این مقاله ابتدا به تعریف رباتها و چالش تشخیص آنها پرداخته شده است. سپس، روشی با نام بوف برای تشخیص رباتهای جستجو ارائه شده است. در روش بوف برای دستیابی به دقتی بالا در تشخیص رباتهای ناهنجار، از پارامترهای مختلف و نسبتا زیادی برای مدلکردن رفتار کاربران استفاده شده است. پس از تعیین اولویت پارامترها در تشخیص ماهیت کاربران، درخت تصمیمی ساخته شده و اقدام به دستهبندی کاربران در گروه-های انسان، ربات مخرب، ربات مجاز و نامشخص میکند. رباتهای تشخیص دادهشده در درخت تصمیم، بخش دیگری از سامانه تشخیص ربات را فعال میکند که قادر است با توجه به الگوی رفتاری شبکههای رباتی، حتی رباتهایی با نرخ درخواست پایین را نیز شناسایی کند. ارزیابی روش پیشنهادی بر روی دادهای آزمون، صحت ۹۷/۷درصدی را در تشخیص ماهیت کاربران نشان میدهد که حداقل بهبود دقت ۹/۹ درصدی را نسبت به روشهای بررسیشده در این حوزه نشان میدهد. رقم قابل توجهی که در هر روز تصمیمگیری در مورد ۲۲۳۰ کاربر را تحت تاثیر قرار میدهد.

کلیدواژه ها

موتور جستجو, ربات جستجو, تحلیل لاگ, تشخیص ربات, درخت تصمیم

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.