تشخیص وب سایت های اسپم فارسی با استفاده از پردازش زبان طبیعی
محل انتشار: دومین کنفرانس فضای سایبر
سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 174
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CYSP02_045
تاریخ نمایه سازی: 23 تیر 1403
چکیده مقاله:
تولید صفحات اسپم به عنوان یکی روشهای جلب توجه کاربر به محتوای غیر مطلوب یکی از چالشهای عمده در حوزه بازیابی اطلاعات به ویژه در محیط وب بشمار میرود و طی سالهای گذشته الگوریتمهای مختلفی برای تشخیص آنها مطرح شده است. بر این اساس روشهای تولید اسپم نیز همزمان با پیشرفت فناوری تغییر شکل میدهند. امروزه یکی از روشهای غیر قانونی افزایش رتبه وب سایت استفاده از وب سایتهای اسپم است. در این مقاله ابتدا انواع اسیم و روشهای شناسایی و ب سایت های اسیم مورد بررسی قرار گرفته است. سپس یک مجموعه داده شامل وب سایت های اسپم و غیر اسیم در وب فارسی معرفی شده و با استفاده از این مجموعه داده یک مدل Multinomial Naive Bayes آموزش دیده است. در این مدل متون این وب سایتها با توجه به تکنیک های پردازش زبان طبیعی مورد بررسی قرار گرفته است و نهایتا هر وب سایت در یکی از دو دسته اسیم و غیر اسپم دسته بندی میشود نتایج ارزیابی روش پیشنهادی روی مجموعه داده متشکل از حدود هزار وب سایت در محیط وب فارسی حاکی از برتری عملکرد آن نسبت به روش مرجع مورد مقایسه، بر اساس شاخص ارزیابی F-Score و به میزان حدود ۲۰۲۵ می باشد.
کلیدواژه ها:
وب سایتهای اسپم مدل Multinomial Nave Bayes ، پردازش زبان طبیعی
نویسندگان
صبا حیدری دوست
کارشناسی مهندسی کامپیوتر دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران
امیرحسین کیهانی پور
استادیار گروه مهندسی کامپیوتر دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران