ارائه عملکرد ترکیبی برای تشخیص وب اسپم ها با استفاده از خصوصیت های مبتنی بر متن و پیوند
سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 240
فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CECCONF20_006
تاریخ نمایه سازی: 18 شهریور 1402
چکیده مقاله:
در دو دهه اخیر حجم اطلاعات مختلف در بستر شبکه اینترنت رشد چشمگیری داشته است. با مطرح شدن تجارتالکترونیک، تبلیغات اینترنتی و همچنین زیاد شدن تعداد وب سایت ها، موتورهای جستجو به منظور رفع نیاز اطلاعاتیکاربران در کم ترین زمان ایجاد شدند. کاربران برای یافتن اطلاعات مورد نظرشان به موتورهای جستجو رجوع کرده وتنها نخستین نتایجی که موتورهای جستجو نمایش می دهد را مورد بررسی قرار می دهند. از این رو موتورهای جستجوو قرار گرفتن صفحات در نتایج نخست برای صاحبان وب سایت ها حائز اهمیت شد. در این بین افرادی سعی در فریبدادن موتورهای جستجو برای قرار دادن صفحات سایت خود به صورت غیرمنصفانه در نتایج نخست داشته اند. اینتلاش ها منجر به ایجاد پدیده وب اسپم گردید. وب اسپم روشی است که با استفاده از آن صفحات نامرتبط دررتبه بندی موتورهای جستجو، رتبه ای بالاتر از صفحات مرتبط خواهند داشت. از دیدگاه کاربران، به طور کلی صفحاتاسپم نامطلوب هستند و هیچ یک تمایلی به مشاهده آن ها در پاسخ به پرس و جوی خود، ندارند. تا کنون پژوهش هایزیادی برای تشخیص وب اسپم ها صورت گرفته است. با این حال تا کنون هیچ روشی موثری برای تشخیص تمامصفحات اسپم ارائه نگردیده است. این پژوهش به شیوه جمع آوری اطلاعات به صورت کتابخانه ای بود. در این پژوهشبا ارائه یک الگوریتم ترکیبی مبتنی بر روش های لینک محور و محتوا محور تلاش می شود انواع صفحات اسپم موجوددر بستر وب، با کارایی بالا شناسایی گردد. رویکرد محتوا محور از تراکم کلمه و همچنین نرخ ضمیمه های نقشدستوری، و رویکرد مبتنی بر لینک از PageRank مختص به هر صفحه بهره میگیرد. این روش بر روی داده های WEBSPAM-UK۲۰۱۶ پیاده سازی شده و نتایج ارزیابی های صورت گرفته نشان دهنده مقدار ۷۷٫۲ % برای معیار F۱ نشان می دهد.
کلیدواژه ها:
نویسندگان
فاطمه دستجردی
مربی، مدرس گروه کامپیوتر دانشگاه امام جواد(ع) یزد
سیدمهدی کوهکن
دانشجوی کارشناسی مهندسی کامپیوتر دانشگاه امام جواد(ع) یزد