تشخیص و طبقه بندی پیامک های هرزنامه در زبان فارسی به کمک ترکیبی از روش های CNN، TF-IDF و LSTM

وحید زرگری; غزاله سربیشه ئی

تشخیص و طبقه بندی پیامک های هرزنامه در زبان فارسی به کمک ترکیبی از روش های CNN، TF-IDF و LSTM

محل انتشار: فصلنامه فناوری اطلاعات و ارتباطات انتظامی، دوره: 5، شماره: 20

سال انتشار: 1403

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 133

نسخه کامل این مقاله ارائه نشده است و در دسترس نمی باشد

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2261899

شناسه ملی سند علمی:

JR_JICTP-5-20_003

تاریخ نمایه سازی: 28 اردیبهشت 1404

چکیده مقاله:

هرزنامه ها پیام های ناخواسته ای هستند که توسط فرستندگان ناشناس ارسال شده و مشکلاتی نظیر افزایش هزینه های محاسباتی، اشغال فضای ذخیره سازی تلفن همراه و سوءاستفاده از اطلاعات کاربران ایجاد می کنند. شناسایی خودکار و موثر این پیام ها به ویژه در زبان فارسی از اهمیت خاصی برخوردار است. در این پژوهش، روشی نوین برای تشخیص و دسته بندی پیامک های هرزنامه فارسی ارائه شده است. از پایگاه داده ای شامل ۴۳۸۹ پیامک فارسی برچسب گذاری شده که از منابع متنوع گردآوری شده است، استفاده شده که به دلیل حجم و جامعیت خود، بستر قابل اتکایی برای تحقیق در این حوزه فراهم می کند. برخلاف روش های رایج که با حذف کلمات توقفی (Stop words) و علائم نگارشی سعی در کاهش پیچیدگی محاسبات دارند، در این مطالعه بدون حذف این عناصر و با اتخاذ رویکردی خلاقانه، پیچیدگی و زمان محاسباتی کاهش یافته است.ویژگی های استخراج شده در سه دسته اصلی تکرار کلمات، موقعیت مکانی کلمات در متن، و همبستگی معنایی بین کلمات دسته بندی شده اند. برای استخراج این ویژگی ها، سه روش مستقل شبکه عصبی کانولوشنی (CNN)، الگوریتم TF-IDF و شبکه عصبی حافظه طولانی مدت (LSTM) مورد استفاده قرار گرفته است. سپس، ویژگی های استخراج شده ترکیب و از طریق الگوریتم تحلیل اجزای همسایگی (NCA) ، کاهش ابعاد یافته اند. این الگوریتم به عنوان یک روش نظارت شده غیرپارامتری، ویژگی های بهینه را برای افزایش دقت طبقه بندی انتخاب می کند. نتایج نشان می دهند که رویکرد پیشنهادی، با استخراج و ترکیب انواع مختلف ویژگی ها و استفاده از روش های پیشرفته یادگیری ماشین، دقت و صحت تشخیص پیامک های هرزنامه فارسی را بهبود بخشیده و گامی موثر در جهت ارائه راهکاری قابل اعتماد برای این مسئله برداشته است.

کلیدواژه ها:

هرزنامه ، Stop words ، CNN ، TF-IDF ، LSTM ، NCA

نویسندگان

وحید زرگری

گروه برق، دانشکده برق و مهندسی پزشکی، دانشگاه سجاد، مشهد، ایران

غزاله سربیشه ئی

گروه برق، دانشکده برق و مهندسی پزشکی، دانشگاه سجاد، مشهد، ایران