ارزیابی تأثیر منشأ ویژگی ها بر میزان دقت تشخیص وب هرز توسط الگوریتم های طبقه بندی

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 604

فایل این مقاله در 7 صفحه با فرمت PDF و WORD قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IRANWEB02_011

تاریخ نمایه سازی: 9 مرداد 1395

چکیده مقاله:

امروزه با توجه به رشد اطلاعات در وب، موتورهای جستجو به عنوان یک ابزار برای ورود به دنیای وب مورد توجه قرار گرفته اند. آنها فهرستی از نتایج مرتبط با پرسش کاربر را در اختیار او قرار می دهند. از آنجا که اکثر کاربران تنها نتایج صفحه نخست و از آن میان فقط روی سه یا پنج پیوند اولیه را مورد بازدید قرار می دهند، حضور یک صفحه در نتایج بالای موتورهای جستجو به معنای بازدیدکننده بیشتر و نیز درآمد بیشتر است. در این میان وب هرز یک روش غیرقانونی و غیراخلاقی به منظور افزایش رتبه صفحات اینترنتی توسط فریب الگوریتم های موتورهای جستجو می باشد. از آنجا که کیفیت نتایج برای موتورهای جستجو اهمیت بسیاری دارد، روش های مختلفی برای تشخیص صفحات وب هرز ارائه شده است. تاکنون بررسی های فراوانی بر روی مجموعه داده UK-WEBSPAM-2007 صورت گرفته و الگوریتم های طبقه بندی جدید و ترکیبی به نتایج خوبی رسیده اند اما هدف ما بررسی عملکرد الگوریتم های کلاسیک بر روی این مجموعه داده است و اینکه نشان دهیم از اینگونه الگوریتم ها نمی توان به صورت خام برای تشخیص وب هرز استفاده کرد و روشهای ترکیبی جدید گزینه مناسب تری در این خصوص است. در این مقاله قصد داریم تاثیر روش های منتخب طبقه بندی را بر میزان تشخیص این صفحات با در نظر گرفتن چگونگی انتخاب ویژگی ها، بررسی نماییم. بدین منظور از مجموعه داده UK-WEBSPAM-2007 استفاده کرده و 12روش مختلف طبقه بندی را برای تشخیص صفحات وب هرز از دیگر صفحات بر روی حالات مختلف انتخاب ویژگی اعمال کردیم. بهترین نتیجه از اعمال الگوریتم های طبقه بندی بر ترکیب ویژگی های مبتنی بر محتوا و ویژگی های مبتنی بر پیوند بدست آمد.

کلیدواژه ها:

وب هرز ، طبقه بندی ، ویژگی های مبتنی بر محتوا ، ویژگی های مبتنی بر پیوند ، ویژگی های مبتنی بر پیوند تبدیل یافته

نویسندگان

فریبا مستشارنژاد

دانشجوی کارشناسی ارشد نرم افزار، دانشکده فنی، مهندسی، دانشگاه آزاد اسلامی واحد مشهد

سیدرضا کامل

استادیار گروه نرم افزار، دانشکده فنی، مهندسی، دانشگاه آزاد اسلامی واحد مشهد

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • C. Silverstein, H. Marais, M. Henzinger, and M. Moric, "Analysis ...
  • T. Joachims, L. Granka, B. Pan, H. Hembrooke, and G. ...
  • N. Eiron, K. S. McCurley, and J. A. Tomlin, "Ranking ...
  • D. Fetterly, M. Manasse, and M. Najork, "Detecting phrase-level duplication ...
  • R. Jennings, 'Cost of spam is fattening our 2009 predictions ...
  • Davison, B.D., "Recognizing nepotistic links on the web. Artificial Intelligence ...
  • Najork, M., Web Spam Detection. Encyclopedia of Database Systems, 1: ...
  • G. Salton, A. Wong, and C. S. Yang, "A vector ...
  • S. Robertson, H. Zaragoza, and M. Taylor, "Simple bm25 extension ...
  • C. Zhai, "Statistical Language Models for Information Retrieval". Now Publishers ...
  • Gyongyi, Z. and H. Garcia-Molina, Web SpamTaxon omy, in First ...
  • Carlos Castillo, Debora Donato, Luca Becchetti, Paolo Boldi, Stefano Leonardi, ...
  • XindongWu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, ...
  • George H. John, Pat Langley, "Estimating Continuous Distributions in Bayesian ...
  • http ://www .cs _ waikato _ _ , _ remc ...
  • نمایش کامل مراجع