تشخیص وب سایت های اسپم فارسی با استفاده از پردازش زبان طبیعی

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 174

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CYSP02_045

تاریخ نمایه سازی: 23 تیر 1403

چکیده مقاله:

تولید صفحات اسپم به عنوان یکی روشهای جلب توجه کاربر به محتوای غیر مطلوب یکی از چالشهای عمده در حوزه بازیابی اطلاعات به ویژه در محیط وب بشمار میرود و طی سالهای گذشته الگوریتمهای مختلفی برای تشخیص آنها مطرح شده است. بر این اساس روشهای تولید اسپم نیز همزمان با پیشرفت فناوری تغییر شکل میدهند. امروزه یکی از روشهای غیر قانونی افزایش رتبه وب سایت استفاده از وب سایتهای اسپم است. در این مقاله ابتدا انواع اسیم و روشهای شناسایی و ب سایت های اسیم مورد بررسی قرار گرفته است. سپس یک مجموعه داده شامل وب سایت های اسپم و غیر اسیم در وب فارسی معرفی شده و با استفاده از این مجموعه داده یک مدل Multinomial Naive Bayes آموزش دیده است. در این مدل متون این وب سایتها با توجه به تکنیک های پردازش زبان طبیعی مورد بررسی قرار گرفته است و نهایتا هر وب سایت در یکی از دو دسته اسیم و غیر اسپم دسته بندی میشود نتایج ارزیابی روش پیشنهادی روی مجموعه داده متشکل از حدود هزار وب سایت در محیط وب فارسی حاکی از برتری عملکرد آن نسبت به روش مرجع مورد مقایسه، بر اساس شاخص ارزیابی F-Score و به میزان حدود ۲۰۲۵ می باشد.

کلیدواژه ها:

وب سایتهای اسپم مدل Multinomial Nave Bayes ، پردازش زبان طبیعی

نویسندگان

صبا حیدری دوست

کارشناسی مهندسی کامپیوتر دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران

امیرحسین کیهانی پور

استادیار گروه مهندسی کامپیوتر دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران