چارچوب ترکیبی و مقایسه ای برای شناسایی تقلب در بیمه سلامت با تحلیل اهمیت ویژگی ها
سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 20
فایل این مقاله در 16 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
INSDEV32_132
تاریخ نمایه سازی: 12 دی 1404
چکیده مقاله:
تشخیص تقلب در داده های بیمه سلامت یکی از چالش های اساسی در مدیریت هزینه های درمانی و حفظ پایداری نظام سلامت است. روش های سنتی مبتنی بر قوانین و نیز مدل های یادگیری ماشین متداول، در مواجهه با داده های حجیم، پیچیده و ترکیبی از داده های برچسب دار و بدون برچسب، کارایی محدودی دارند. در این پژوهش، یک چارچوب ترکیبی و مقایسه ای برای شناسایی تقلب در بیمه سلامت ارائه می شود که با تلفیق یادگیری بدون نظارت و یادگیری نظارت شده، دقت و تفسیرپذیری مدل را بهبود می دهد. در مرحله نخست، با استفاده از الگوریتم خوشه بندی K-Means، ساختارهای رفتاری پنهان میان ارائه دهندگان خدمات و بیمه شدگان شناسایی شد و خروجی آن به عنوان ویژگی های جدید به مدل های یادگیری نظارت شده افزوده گردید. سپس چندین مدل یادگیری کلاسیک از جمله Random Forest، XGBoost و Logistic Regression آموزش داده شدند و بر اساس شاخص های F۱ و AUC مورد مقایسه قرار گرفتند. نتایج نشان داد که مدل Logistic Regression با استفاده از ویژگی های ترکیبی و خوشه ای، بهترین عملکرد را ارائه می دهد. مقدار F۱ برابر با ۰.۸۶ و AUC برابر با ۰.۹۱ به دست آمد که نسبت به مدل های تک مرحله ای بهبود قابل توجهی را نشان می دهد. تحلیل ضرایب استانداردشده مدل نهایی بیانگر آن بود که عواملی همچون افزایش غیرعادی تعداد ادعاها نسبت به بیمه شدگان، میانگین پایین تر سن بیماران و درصد بالاتر بیماران مزمن نقش مهمی در پیش بینی تقلب دارند. این یافته ها نشان می دهد که ترکیب تحلیل خوشه ای و مدل نظارت شده می تواند به شناسایی دقیق تر و تفسیرپذیرتر الگوهای تقلب منجر شود. چارچوب پیشنهادی از قابلیت تعمیم برای سایر انواع داده های بیمه ای برخوردار بوده و در پژوهش های آینده می تواند با بهره گیری از روش های نیمه نظارتی و یادگیری عمیق توسعه یابد.
کلیدواژه ها:
نویسندگان
رقیه سفرجی
کارشناس ارشد هوش مصنوعی و رباتیک؛ شرکت بیمه دانا؛ مدیریت فناوری اطلاعات