ارزیابی توضیح پذیری ریسک اعتباری با استفاده از روشهای SHAP و LIME مطالعه موردی بر داده های واقعی وام دهی همتا به همتا LendingClub در سال های (۲۰۱۶-۲۰۱۸)
سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 25
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
DSAI02_042
تاریخ نمایه سازی: 28 اردیبهشت 1405
چکیده مقاله:
در این پژوهش به بررسی و مقایسه مدل های یادگیری ماشین و توضیح پذیری آنها برای پیش بینی ریسک اعتباری پرداخته شده است. با استفاده از دیتاست عمومی Lending Club شامل ۵۱۸۷۴۴ وام کامل شده در سال های ۲۰۱۶ تا ۲۰۱۸ چهار مدل XGBoost، Random Forest، Logistic Regression، LightGBM آموزش داده شدند. بهترین عملکرد با بیشترین AUC توسط مدل LightGBM به دست آمد. بر خلاف اکثر مطالعات اخیر که با استفاده از تکنیک های oversampling مانند SMOTE به AUCهای مصنوعی بالای ۸۵ می رسند، در این پژوهش از داده های واقعی و نامتوازن استفاده شد تا نتایج صادقانه تر و قابل تعمیم تر به شرایط واقعی بازار باشد. برای رسیدن به شفافیت و توضیح پذیری که از الزامات رگولاتوری در حوزه مالی و هدف این پژوهش است از روش های SHAP و LIME استفاده شد. نتایج SHAP نشان داد ویژگی های dti، int_rate، sub_grade و revol_util بیشترین تاثیر را بر پیش بینی دارند. همچنین مقایسه توضیحات محلی SHAP و LIME حاکی از همخوانی کلی و تفاوت های جزئی در اولویت دهی به ویژگی ها است. نتایج این پژوهش می تواند به بانک ها و موسسات مالی در پیاده سازی مدل های شفاف و قابل دفاع با داده های خام کمک کند.
کلیدواژه ها:
نویسندگان
فرزانه رخشانی
کارشناسی ارشد علم داده دانشگاه یزد، یزد
جمال زارع پور احمدآبادی
استادیار علوم کامپیوتر دانشگاه یزد، یزد