Performance Evaluation of Machine Learning Algorithms on Raw, Undersampled and Oversampled Data for Credit Card Fraud Detection
- سال انتشار: 1402
- محل انتشار: دومین کنفرانس برق، مکانیک ،هوافضا، کامپیوتر و علوم مهندسی
- کد COI اختصاصی: EMAECONF02_059
- زبان مقاله: انگلیسی
- تعداد مشاهده: 491
نویسندگان
Bachelor of Computer Engineering Student, Department of Computer Engineering, North Tehran Branch, Islamic Azad University, Tehran,Iran
Department of Computer Engineering, North Tehran Branch, Islamic Azad University, Tehran,Iran
چکیده
< p> Credit card fraud poses a significant threat to individuals, financial institutions, and small e-commerce businesses. This paper compares machine learning algorithms for detecting fraudulent credit card transactions. Using Kaggle's Credit Card Fraud Detection dataset, which contains one million transactions with eight features, the study addresses the class imbalance through preprocessing and undersampling/oversampling techniques. Logistic Regression, Decision Tree, XGBoost, and Random Forest algorithms are trained and evaluated on raw, undersampled, and oversampled data using SMOTE for oversampling. Results consistently show that models trained on oversampled data with SMOTE outperform others, with Random Forest achieving the highest precision, recall, and F۱ score. These findings emphasize the importance of data preprocessing and oversampling methods like SMOTE in enhancing fraud detection models. The study provides valuable insights for robust fraud detection systems, ensuring financial security and preserving electronic payment integrity. It highlights the significance of considering metrics beyond accuracy and identifies Random Forest as the most effective algorithm for credit card fraud detection. These findings guide algorithm selection and demonstrate the effectiveness of machine learning against evolving fraud tactics.< /p>کلیدواژه ها
credit card fraud, fraud detection, machine learningمقالات مرتبط جدید
- تحلیل ژنومی و تنوع ژننتیکی ژن های مسئول صفات مقاومت به تنش خشکی در گیاهان زراعی بومی ایران با استفاده از تکنیک های تکنیک های نسل جدید توالی یابی ( NGS)
- بررسی نقش miRNA های خاص در تنظیم بیان ژن های درگیر در مقاومت به دارو در سرطان های مقاوم به شیمی درمانی
- یک رویکرد سطح سختافزاری برای کاهش تداخل ردیف حافظه؛ چیدمان داده ها و شتابدهنده های CNN با تاکید بر FPGA
- اثرات زیست محیطی استفاده از پوزوالنهای صنعتی در بتن
- تاثیر دیجیتالی شدنبر عملکرد شرکت: بررسی نقش فرهنگ دیجیتال و تاثیر قابلیت زنجیره تامین (مورد مطالعه: شرکت های تولیدی شهر صنعتی رشت)
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.