بررسی تأثیر روشهای طبقه بندی بر میزان تشخیص صفحات وب اسپم

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,190

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CITCONF03_562

تاریخ نمایه سازی: 12 تیر 1395

چکیده مقاله:

امروزه با توجه به رشد اطلاعات در وب، موتورهای جستجو به عنوان یک ابزار برای ورود به دنیای وب مورد توجه قرار گرفته اند. آنها فهرستی از نتایج مرتبط با پرسش کاربر را در اختیار او قرار می دهند. از آنجا که اکثر کاربران تنها نتایج صفحه نخست و از آن میان فقط روی سه یا پنج پیوند اولیه را مورد بازدید قرار می دهند، حضور یک صفحه در نتایج بالای موتورهای جستجو به معنای بازدیدکننده بیشتر و نیز درآمد بیشتر است. در این میان وب اسپم یک روش غیرقانونی و غیراخلاقی به منظور افزایش رتبه صفحات اینترنتی توسط فریب الگوریتم های موتورهای جستجو می باشد. از آنجا که هرز ارائه شده کیفیت نتایج برای موتورهای جستجو اهمیت بسیاری دارد، روش های مختلفی برای تشخیص صفحات وب است. در این مقاله قصد داریم تاثیر روش های منتخب طبقه بندی را بر میزان تشخیص این صفحات با در نظر گرفتنچگونگی انتخاب ویژگی ها، بررسی نماییم. بدین منظور از مجموعه داده UK-WEBSPAM-2007 استفاده کرده و 21 روش مختلف طبقه بندی را برای تشخیص صفحات وب اسپم از دیگر صفحات بر روی حالات مختلف انتخاب ویژگی اعمال کردیم. بهترین نتیجه از اعمال الگوریتم های طبقه بندی بر ترکیب ویژگی های مبتنی بر محتوا و ویژگی های مبتنی بر پیوند بدست آمد

کلیدواژه ها:

وب اسپم ، طبقه بندی ، ویژگی های مبتنی بر محتوا ، ویژگی های مبتنی بر پیوند ، ویژگی های مبتنی برپیوند تبدیل یافته

نویسندگان

فائزه اصدقی

دانشجوی دکتری هوش مصنوعی، دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود، سمنان، ایران

علی سلیمانی

دانشیار گروه هوش مصنوعی، دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود، سمنان، ایران -

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • C. Silverstein, H. Marais, M. Henzinger, and M. Moricz, "Analysis ...
  • T. Joachims, L. Granka, B. Pan, H. Hembrooke, and G. ...
  • N. Eiron, K. S. McCurley, and J. A. Tomlin, "Ranking ...
  • D. Fetterly, M. Manasse, and M. Najork, "Detecting phrase-level duplication ...
  • R. Jennings, "Cost of spam is fattening our 2009 predictions", ...
  • Davison, B.D., Recognizing nepotistic links on the web. Artificial Intelligence ...
  • Najork, M., Web Spam Detection. Encyclopedia of Database Systems, 1: ...
  • G. Salton, A. Wong, and C. S. Yang, A vector ...
  • S. Robertson, H. Zaragoza, and M. Taylor, Simple bm25 extension ...
  • C. Zhai, Statistical Language Models for Information Retrieval. Now Publishers ...
  • Gyongyi, Z. and H. G arcia-Molina, Web Sp amTaxonomy, in ...
  • XindongWu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, ...
  • George H. John, Pat Langley, "Estimating Continuous Distributions in Bayesian ...
  • نمایش کامل مراجع