ارزیابی ابزار یادگیری ماشینی در جرم یابی رایانه ای

ارزیابی ابزار یادگیری ماشینی در جرم یابی رایانه ای
آیا یک ماشین می تواند به سطحی از عملکرد برسد که میزان ریسک یا خطر شکست در آن قابل قبول باشد؟
ابزارها همواره نقش موثری در کاهش دشواری های مربوط به استخراج و تحلیل داده های جرم یابی سایبری برای ارائه در محاکم داشته اند. از گذشته تاکنون، حجم داده هایی که نیاز به بررسی دارند، کم نبوده و امروزه این حجم به مراتب بیشتر شده است. ابزارهای فعلی عمدتا تحت نظارت کامل یا تا حدودی با نظارت کار می کنند. استفاده از اسکریپت های پیش بینی کننده و روش های نوین نمونه گیری آماری باعث شده گردآوری و تحلیل داده های بدون نظارت گسترش یابد، اما هنوز گذار کامل به ابزارهای کاملا خودکار صورت نگرفته است. میزان ریسک احتمالی و تاثیر آن بر تصمیم گیری های قضایی، استفاده از راه حل های کاملا خودکار را با احتیاط همراه کرده است. همچنین، در بازپرسی های متقابل از کارشناسان، معمولا لازم است روش ها، تصمیمات و فرآیندهایی که در جریان استخراج و تحلیل شواهد دیجیتال استفاده شده اند، به روشنی تشریح شوند.
اینکه صرفا گفته شود «یک ربات این کار را انجام داده»، برای اقناع کافی نیست؛ مگر آنکه مراحل پردازش سیستم و گام های رعایت الزامات ریسک در ابزار خودکار، به زبانی ساده و قابل درک برای همه توضیح داده شود. ابزارهای کاملا خودکار در حوزه جرم یابی سایبری این ظرفیت را دارند که روند انجام کارهای کارشناسی را سرعت ببخشند و وقفه های زمانی بین مراحل مختلف فرآیند، دوره های کاری و تهیه گزارش را حذف کنند.
این فناوری به کارشناسان امکان می دهد زمان بیشتری را صرف اندیشیدن درباره خروجی ها، اصلاح خطاها، موارد استثنا و خود پرونده کنند. یادگیری ماشینی، یادگیری عمیق و دیگر روش های هوش مصنوعی این قابلیت را دارند که کارایی ابزارهای جرم یابی رایانه ای را ارتقاء دهند. اما ریسکی که باید مدیریت و گزارش شود، احتمال شکست در یافتن شواهد مرتبط یا ارائه شواهد نامربوط است. آیا یک ماشین می تواند به سطحی از عملکرد برسد که این ریسک، در حدی قابل قبول باشد؟
یادگیری ماشینی (ML) و یادگیری عمیق (DL ) دو مفهوم نزدیک به هم هستند که در متون مرتبط با هوش مصنوعی و فرایندهای خودکارسازی کاربرد زیادی دارند. یادگیری ماشینی به مجموعه ای از فناوری ها اشاره دارد که به جای استفاده از الگوریتم های ثابت و مبتنی بر قواعد، با بهره گیری از شناسایی الگوها، انجام وظایف را فرا می گیرند. یک ماشین یادگیرنده با تحلیل داده های نمونه کار خود را آغاز می کند و به تدریج پاسخ هایی را تولید می کند تا جایی که میزان خطا به سطحی قابل قبول برسد. در یک بررسی رسمی، ابزار مورد استفاده باید ابتدا با مجموعه ای از داده های نمونه که به داده های اصلی شباهت دارند آموزش ببیند. پس از آن، اگر عملکرد ابزار با میزان ریسک قابل قبول هم خوانی داشته باشد، می توان از آن بر روی داده های اصلی استفاده کرد.
ماشین ها به بازخوردها واکنش نشان می دهند و رفتار خود را تنظیم می کنند تا بدون برنامه ریزی صریح یا نظارت مستقیم، پیش بینی ها یا تصمیم گیری هایی انجام دهند.
نکته ی کارشناسی:
معیارهای قابل قبول بودن
ابزارهای جرم یابی سایبری امکان انجام تحقیقات دیجیتال در حجم های وسیع داده را فراهم می آورند و نیاز به دانش فنی گسترده برای استفاده را برای محقق کاهش می دهند.
روش های استخراج شواهد به صورت استاندارد شده اند تا بتوان آن ها را بارها و بارها مطابق با دستورالعمل های ابزار و اهداف تحقیق انجام داد. به همین دلیل، ابزارهای مطرح در این حوزه به واسطه تکرار و یکنواختی عملکردشان، در دادگاه ها اعتبار یافته اند و شواهد ارائه شده توسط آن ها پذیرفته می شود، به شرطی که رعایت استانداردها و اعتبار کارشناس تایید شده باشد. اما اعتبار تحقیقات جرم یابی دیجیتال تا حد زیادی به روند بازجویی متقابل، کیفیت روش های به کار رفته در فرایند جرم یابی سایبری و صحت استفاده از ابزارهای مربوطه وابسته است و در صورتی که شک و تردید درباره اعتبار ابزارهای مورد استفاده ایجاد شود، ممکن است کل تحقیق بی ارزش شود.
بنابراین، میزان خودکار بودن ابزار از رعایت مقررات و کیفیت خروجی اهمیت کمتری دارد. ابزارهای بدون نظارت ممکن است به همان اندازه ابزارهای تحت نظارت قابل قبول باشند، به شرطی که شواهد به دست آمده قابل اطمینان، قابل تکرار و قابل پذیرش باشند.
یادگیری ماشینی (ML) به فرایند انجام وظایف کمک می کند. یادگیری عمیق(DL) که زیرمجموعه ای از یادگیری ماشینی است، از شبکه های عصبی مصنوعی به عنوان چارچوب های الگوریتمی و محاسباتی بهره می برد. یادگیری عمیق به کارگیری چندین لایه در شبکه عصبی اشاره دارد تا نتیجه مطلوبی حاصل شود. این روش هدف دارد تا نقاط ضعف را کاهش دهد و دقت پیش بینی ها را افزایش دهد. هدف اصلی، یافتن یک دسته بندی کننده عمومی است که لایه های پنهان در ساختارش بتوانند بهترین تقریب را برای گسترده ترین دامنه ورودی ها ارائه دهند. در یادگیری عمیق، از تعداد نامحدودی لایه با اندازه ثابت استفاده می شود تا عملکرد بهینه، حداقل شرایط لازم و بهترین تقریب به پاسخ مورد نیاز فراهم شود. این ساختار به طور خاص برای سهولت در پیاده سازی و بهینه سازی طراحی شده است.
در دنیایی ایده آل، الگوریتم های یادگیری ماشینی ML و یادگیری عمیق DL باید به گونه ای قابل اعتماد باشند که بتوانند داده ها را برای اهداف اثباتی بررسی کنند و نتایج آنها در دادگاه قابل قبول باشد. اما شک و تردید درباره سازگاری و تکرارپذیری خروجی های مصنوعی در شرایط متغیر مانع از پذیرش عمومی این فناوری ها شده است. همچنین نگرانی هایی درباره ادعای پذیرش علمی یا فنی این روش ها مطرح می شود، زیرا ML و DL ساختارهای نوین اجتماعی-فنی هستند که سابقه طولانی در حوزه اجتماعی ندارند. این نگرانی ها دقت ادعا شده را زیر سوال می برند، به ویژه وقتی یافته ها بر اساس مجموعه های آموزشی هستند و نه موارد استفاده واقعی یا مراجع پایگاه داده های پرونده ها. علاوه بر این، مطرح می شود که کارشناسان باید داده های پردازش شده را تحلیل کنند، هرگونه خطایی که ممکن است در طول فرآیند به وجود آمده باشد را شناسایی کنند، تخمین هایی که به خروجی مورد انتظار نزدیک هستند را بررسی نمایند و صحت نتایج را نظارت کنند.
با توجه به دو معیار پذیرش، یادگیری ماشینی ML و یادگیری عمیق DL هنوز نیازمند تکمیل و بهبود هستند. بر اساس استاندارد داوبرت، عواملی که برای تعیین اعتبار یک روش تحقیق باید مورد بررسی قرار گیرند شامل موارد زیر است:
۱) امکان و انجام آزمایش بر روی نظریه یا تکنیک؛
۲) ارزیابی توسط کارشناسان هم رده و انتشار نتایج؛
۳) میزان خطای شناخته شده یا محتمل؛
۴) وجود و رعایت استانداردهای کنترلی برای عملکرد؛
۵) پذیرش گسترده در جامعه علمی مرتبط.
در حالی که موارد اول تا سوم قابل دستیابی هستند، حمایت و توسعه موارد چهارم و پنجم هنوز در حال پیشرفت است. همچنین، طبق معیارهای پذیرش گسترده تر فریر که شامل تایید روش توسط اکثریت کارشناسان می شود، یادگیری ماشینی و یادگیری عمیق همچنان با چالش هایی روبه رو هستند. این موضوع به ویژه درباره ابزارهای استخراج و تحلیل شواهد کاملا خودکار صدق می کند که ممکن است در حال استفاده باشند اما هنوز به طور کامل یا گسترده در جامعه جرم یابی سایبری یا دادگاه ها پذیرفته نشده اند.
تعیین سطح انتظارات از ابزارهای خودکار مستلزم ایجاد توازنی میان مزایا و هزینه های استفاده از آن هاست. اگر ابزاری بتواند زمان کارآگاه یا محقق را کاهش دهد، ارزشمند تلقی می شود؛ اما اگر همان ابزار دارای نرخ خطای غیرقابل قبول باشد، این مزیت عملا بی اثر خواهد شد. تعیین انتظارات از نحوه استفاده و عملکرد ابزار، در واقع نوعی موازنه میان محدودیت های اقتصادی و حقوقی است.
از دیدگاه اقتصادی، تحلیل هزینه و فایده باید نشان دهد که ابزار مزایایی ارائه می دهد که نسبت به روش ها و روندهای فعلی بهتر هستند. مثلا کاهش زمان پردازش، توانایی رسیدگی به حجم بیشتری از داده ها، و پوشش گسترده تر انواع اطلاعات می تواند نشانه هایی از بهبود روند تحقیق باشد. با این حال، هر مزیت باید در کنار سایر عوامل سنجیده شود، تا بتوان با در نظر گرفتن ریسک های احتمالی مثبت و منفی، ارزش نهایی استفاده از ابزار را ارزیابی کرد.
یک پیشنهاد سودمند باید بتواند برای همه ذی نفعان مزیت ایجاد کند، نه فقط برای تعداد محدودی. استفاده کامل از ابزارهای خودکار و هوش مصنوعی های بدون نظارت مبتنی بر یادگیری ماشینی و یادگیری عمیق، زمانی امکان پذیر است که اطلاعات دقیق تری درباره عملکرد این ابزارها و استانداردهای لازم در دسترس باشد.
تا زمانی که چنین داده ها و استانداردهایی فراهم نشود، تردیدها نسبت به پذیرش قانونی این ابزارها و عدم تطابق با معیارهای قانونی ادامه خواهد داشت. همه ابزارها باید دارای اطلاعات مشخص و منتشرشده ای درباره میزان خطای احتمالی خود در هر مجموعه داده باشند، تا هم پژوهشگر و هم دادگاه بتوانند با آگاهی از میزان اعتبار نتایج، به آن اعتماد کنند.
این اطلاعات باید قابل سنجش، قابل مقایسه در حوزه های مختلف، دارای معیارهای مشترک، و قابل بیان با زبان ساده و قابل فهم باشد. تعیین چنین سطحی از انتظارات عملکرد، کاری است که ابزارهای کاملا خودکار هنوز موفق به انجام آن نشده اند.
برای ارزیابی تاثیر خرابی یک ابزار و درک واقعی معنای آن در قالب معیارهای سنجش، کاربر باید بتواند تخمین بزند که این خرابی چه اثری بر خدمات حیاتی او می گذارد. اگر خطرات ناشی از این خرابی افزایش یابند، ممکن است باعث اختلال در ادامه فعالیت سازمان، به خطر افتادن جان افراد، از بین رفتن اعتبار حقوقی، و موارد مشابه شوند.
ممکن است نرخ خطای یک ابزار تحلیل جرم یابی سایبری در مقایسه با نرخ موفقیت آن بسیار اندک باشد، اما حتی یک خطای مثبت کاذب می تواند به شدت به اعتبار قانونی و قضایی آسیب وارد کند و یک خطای منفی کاذب می تواند منجر به صدمات جدی اجتماعی شود.
هر کدام از این خطاها اثرات جدی و واقعی دارند، که ممکن است شامل هزینه های جبران خسارت، مسئولیت های حقوقی، و پیامدهای مالی بلندمدت شود
عوامل اعتماد مصنوعی
اعتماد از طریق اعتبار و شهرت به دست می آید. در استفاده از یک سیستم، موازنه میان امنیت، کارایی، حریم خصوصی، انطباق با قوانین، هزینه ها و مزایا، دیدگاه انسان نسبت به اعتبار و ارزش یک فناوری را شکل می دهد.
مکانیزم های ایجاد اعتماد باید در سراسر زنجیره ارائه خدمات یک سامانه گسترش پیدا کنند تا بتوانند اعتبار سیستم را ایجاد و حفظ کنند.
عوامل اعتماد مصنوعی از طریق زبان ها بازنمایی می شوند و در روابط میان انسان ها، بین انسان و ماشین، و همچنین میان خود ماشین ها شکل می گیرند. ماشین ها برای برقراری ارتباط و ارائه خدمات، رفتار یکدیگر را تحلیل کرده و نسبت به آن واکنش نشان می دهند.
بسیاری از ماشین ها به قابلیت هایی مانند تصحیح خطا، حسگرهای محیطی، و در مدل های پیشرفته تر، الگوریتم های یادگیری مجهز هستند تا بتوانند وظایف مشترک بین ماشینی را به صورت موثر انجام دهند. این توانایی ها، زمینه ساز شکل گیری نوعی اعتماد فنی میان ماشین ها در جریان تعاملاتشان است
انجام مداوم و موفق یک وظیفه و واکنش های قابل پیش بینی به بازخوردها، نشانه هایی هستند که باعث می شوند یک ماشین قابل اعتماد تلقی شود. اعتماد، بخشی اساسی از عملکرد هر سامانه یا نرم افزار است، و زمانی که اعتبار یا شهرت آن کاهش یابد یا کافی نباشد، ممکن است دیگر برای استفاده مناسب شناخته نشود.
عوامل اعتماد مصنوعی نقش بسیار مهمی در پذیرش سامانه ها، خدمات، و کاربردهای فناوری دارند و بدون وجود این عوامل، استفاده گسترده از فناوری با چالش روبه رو خواهد شد.
تاثیرات منفی ناشی از عملکرد سیستم باید در ارزیابی ارزش واقعی استفاده از یک ابزار لحاظ شود. برای مشخص کردن سطح انتظارات، می توان از یک روش ساده استفاده کرد: میزان پذیرش ریسک منهای مجموع اثرات مثبت و منفی، به یک معیار مشخص برای تصمیم گیری منتهی می شود.
در این رویکرد، وزن و اهمیت هر پیامد در فرمول تصمیم گیری وارد می شود و کمک می کند تصمیم گیری ها منطقی تر و دقیق تر باشند. در حال حاضر، چنین محاسباتی معمولا به نفع ابزارهای نظارت شده یا نیمه نظارت شده تمام می شود و ابزارهای کاملا خودکار امتیاز کمتری می گیرند.
برای اینکه این نوع ابزارهای کاملا خودکار در آینده بیشتر مورد پذیرش قرار بگیرند، نیاز است که اعتبار و اعتماد عمومی نسبت به آن ها بیشتر تقویت شود.
برای ارزیابی عملکرد یک روش هوش مصنوعی، چهار فرمول اصلی مورد استفاده قرار می گیرد:
ACC (دقت کلی): درصد پیش بینی های صحیح الگوریتم را مشخص می کند.
FAR (نرخ پذیرش اشتباه): نشان می دهد چند بار سیستم اطلاعات نادرست را به اشتباه قبول کرده است.
FRR (نرخ رد اشتباه): مشخص می کند چند بار سیستم اطلاعات درست را به اشتباه نپذیرفته است.
F1 (شاخص تعادل بین دقت و بازیابی): معیاری است که بین توانایی در تشخیص درست و بازیابی صحیح نتایج توازن برقرار می کند.
در میان این چهار شاخص، ACC و F1 از همه مهم تر هستند برای اینکه مشخص کنند آیا یک الگوریتم هوش مصنوعی برای استفاده در ابزارهای جرم شناسی سایبری مناسب است یا نه.
شاخص ACC به صورت مستقیم نشان می دهد که الگوریتم تا چه حد در پیش بینی درست موفق بوده و چقدر می توان به نتایج آن اعتماد کرد. این عدد به سرعت میزان موفقیت الگوریتم را آشکار می کند و نقاط ضعف احتمالی را نیز نمایان می سازد.
معیار F1 زمانی کاربرد دارد که به طور کلی دانسته شده باشد الگوریتم های هوش مصنوعی نمی توانند کارها را صد در صد به درستی انجام دهند. معیار F1 هزینه های ناشی از خطا را در نظر می گیرد و این واقعیت که بعضی از خطاها آسیب زننده تر از بقیه هستند. معمولا امتیاز F1 زمانی مفیدتر از دقت است که تاثیرات ریسک به صورت نابرابر در کلاس ها تقسیم شده باشد. دقت زمانی بهترین کارایی را دارد که هزینه خطاهای مثبت کاذب و منفی کاذب تقریبا برابر باشد. اگر هزینه خطاهای مثبت کاذب و منفی کاذب بسیار متفاوت باشد، معیارهای دقت و بازیابی اطلاعات دقیق تری ارائه می دهند و بهتر می توانند نیاز به میزان تحمل ریسک را برآورده کنند
به این صورت، پژوهشگر و دادگاه می توانند معیار F1 یکسانی را با انتظارات متفاوت نسبت به ارزش آن بخوانند و بر این اساس نتیجه را با توجه به زمینه ریسک خاص و میزان تحمل ریسک متفاوت تفسیر کنند. نکته نگران کننده در مورد معیار دقت (ACC) این است که راهنمای کلی برای تفسیر آن بیان می کند: «بیش از ۹۰ درصد – بسیار خوب. بین ۷۰ تا ۹۰ درصد – خوب. بین ۶۰ تا ۷۰ درصد – قابل قبول». نرخ خطای ده درصد ممکن است در برخی موارد بسیار خوب باشد اما در موارد دیگر می تواند فاجعه آمیز باشد. برای تعیین انتظارات عملکرد ابزارهای خودکار جرم شناسی سایبری، الگوریتم ها باید نرخ خطا را برای همه مجموعه داده ها به کمتر از دو و نیم درصد کاهش دهند.
نکته کلیدی:
تنظیم انتظارات قابل قبول
تنظیم انتظارات برای عملکرد قابل قبول هر سیستم یا برنامه ای نیازمند تعادل میان هزینه ها و مزایای استفاده است. در مواردی که سیستم ها یا برنامه ها انتظارات خطا را به صورت مشخص اعلام کرده اند، کاربر می تواند انتظارات خود را بهتر مدیریت کند. همچنین کاربر باید تاثیر احتمالی خطا بر خدمات حیاتی خود را برآورد کند که ممکن است شامل تداوم کسب وکار، حفظ جان انسان ها، هزینه های بازیابی و غیره باشد. برای تنظیم این انتظارات، یک راهکار ساده وجود دارد که با محاسبه «تحمل ریسک» منهای «جمع تاثیرات مثبت و منفی» یک معیار واحد برای تصمیم گیری ارائه می دهد. در هوش مصنوعی، احتمال پیش بینی صحیح با تقسیم تعداد پیش بینی های درست بر کل پیش بینی ها محاسبه می شود. این عدد نشان دهنده انتظارات ممکن از کاربرد هوش مصنوعی و تطابق آن با میزان تحمل ریسک و کاربرد مورد نظر است.
محدودیت های هوش مصنوعی
هوش مصنوعی اصطلاحی است که برای توصیف فعالیت های هوشمندانه ای به کار می رود که مستقل از توانایی های انسانی انجام می شوند. این فعالیت ها معمولا به صورت عملکردهای رایانه ای، در قالب الگوریتم ها و به عنوان جایگزینی برای هوش انسانی دیده می شوند. به عنوان مثال در ترجمه زبان، تصمیم گیری، تشخیص تصویری و مواردی از این دست. کاربردهای هوش مصنوعی در عملکرد و دامنه وظایفی که می توانند با موفقیت انجام دهند پیشرفت چشمگیری داشته اند.
با این حال، هنوز بسیاری از فعالیت های هوشمندانه انسانی وجود دارند که توسط ماشین ها آموخته نشده اند یا ماشین ها عملکرد ضعیفی در انجام آن ها نشان می دهند.
به همین دلیل، برای جبران خطاهایی که در هوش مصنوعی وجود دارد، نیاز به فعالیت هایی است که با نظارت کامل یا نیمه کامل انجام شوند. استفاده از هوش مصنوعی باید همراه با برچسب هایی باشد که میزان خطر را مشخص کنند و به کاربر هشدار دهند که ممکن است چه پیامدهایی در پی داشته باشد.
مثلا یک برنامه مترجم زبان ممکن است در ترجمه یک زبان خاص، دقتی برابر با ۹۹ درصد داشته باشد؛ اما همان ۱ درصد خطای باقیمانده چه پیامدهایی می تواند داشته باشد؟ آیا ممکن است به قطع رابطه بین افراد منجر شود یا حتی باعث بروز یک بحران سیاسی شود؟ یا خطای شناسایی تصویری در خودروهای هوشمند که می تواند باعث تصادف یا مرگ انسان شود چطور؟
هوش مصنوعی در حوزه هایی که وابستگی زیادی به فناوری دارند بسیار کاربردی است، اما محدودیت های عملکرد آن باید در هر بار استفاده به روشنی مشخص شود و کاربر همواره نسبت به خطرات و احتمال خطا آگاه باشد.
تماس با من : https://vakiltabatabaee.ir