دسته بندی داده های وب تاریک به کمک مدل زبانی BERT

براتعلی اختریان; محسن رضوانی

دسته بندی داده های وب تاریک به کمک مدل زبانی BERT

محل انتشار: فصلنامه پدافند الکترونیکی و سایبری، دوره: 13، شماره: 4

سال انتشار: 1404

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 6

نسخه کامل این مقاله ارائه نشده است و در دسترس نمی باشد

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2573303

شناسه ملی سند علمی:

JR_PADSA-13-4_004

تاریخ نمایه سازی: 21 اسفند 1404

چکیده مقاله:

ماهیت پنهان و دسترسی محدود وب تاریک، موجب گسترش فعالیت های مجرمانه بسیاری از جمله تهدیدات سایبری، فروش اسلحه، فروش مواد مخدر و فروش ابزارهای غیرقانونی شده است. ظهور مدل های زبانی بزرگ این امید را ایجاد نموده است که بتوان با دقت مناسبی به تحلیل مطالب موجود در وب تاریک پرداخت. در همین راستا استفاده از داده های انبوه سایبری موجود در وب تاریک برای جلوگیری از تهدیدات سایبری و آموزش مدل های زبانی بسیار مفید و موثر خواهد بود. تکنولوژی مدل های زبانی بزرگ برای آموزش بهتر و رسیدن به دقت کافی، به داده زیاد و باکیفیت بالا نیاز دارند و این چالشی است که محققان حوزه امنیت سایبری با توجه به آلوده بودن داده های موجود در وب تاریک روبرو هستند. اغلب تحقیقات در این زمینه، متمرکز بر روی تمام مشخصه های دادگان وب تاریک و داده های باکیفیت پایین صورت پذیرفته است و نتوانسته اند دقت بالایی را کسب کنند. در این پژوهش یک مدل زبانی جدید بر پایه مدل زبانی پایه BERT که بر روی داده استخراج شده از وب تاریک آموزش دیده است، ارائه کردیم. مدل پیشنهادی یک مدل متنی مبتنی بر ترانسفورماتور است که از رمزگذار دوطرفه از ترانسفورماتورها برای رویکرد یادگیری استفاده می کند و آن را بر روی یک دادگان باکیفیت بالا، بدون داده تکراری، عاری از کلمات نامعلوم، تماما به زبان انگلیسی و به طور مشخص بر روی داده های هک و امنیت ارزیابی نمودیم. در نهایت با تحلیل مقادیر ارزیابی شده مدل پیشنهادی با مدل های قبلی، مشخص شد که مدل پیشنهادی به علت تزریق داده های باکیفیت نسبت به مدل های قبلی، توانسته دقت بهتری در دسته بندی داده ها داشته باشد.

کلیدواژه ها:

وب تاریک ، مدل های زبانی بزرگ ، ترانسفورماتور ، BERT

نویسندگان

براتعلی اختریان

دانشجوی کارشناسی ارشد، دانشکده مهندسی کامپیوتر،دانشگاه صنعتی شاهرود ، شاهرود، ایران

محسن رضوانی

استادیار،دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شاهرود، شاهرود، ایران