روشی برای دسته بندی و تشخیص تراکنش های تقلبی بانکی با مجموعه داده نامتوازن

  • سال انتشار: 1393
  • محل انتشار: همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات
  • کد COI اختصاصی: CSITM01_162
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1886
دانلود فایل این مقاله

نویسندگان

ابوالفضل معراجی فر

دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه بین المللی امام رضا (ع)

مجید تفاهمی

دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه بین المللی امام رضا (ع)

اعظم الهامی

دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه بین المللی امام رضا (ع)

چکیده

در این مقاله به ارائه روشی جدید برای دسته بندی تراکنش های تقلبیی در بانی پرداخته شده است. از آنجایی که معمولاً درمجموعه داده بانکی تعداد تراکنش های تقلبی نسبت به تعداد تراکنش های غیرتقلبی ناچیز می باشد حالتی برای مجموعه داده بانکیرخ خواهد داد که به اصطلاح به این مجموعه داده ی مجموعه داده نامتوازن گفته می شود لذا برای انجام تشخیص تراکنش هایتقلبی و دسته بندی درست آن نیازمند مدلی می باشیم که علی رغم سادگی و کارا بودن بتواند بدون در نظر گرفتن توازن نابرابر درداده ها عمل دسته بندی را به درستی انجام دهد. روشهای شناخته شده برای دسته بندی نظیر درخت تصیمیم و کانزدیکترینهمسایه و ... به علت ماهیت نامتوازن بودن داده های کلاس ها نمی توانند به درستی عمل دسته بندی را انجام دهند و تمایل بهدسته بندی داده های ورودی (تقلبی و غیرتقلبی) در کلاس اکثریت (تقلبی) می باشند لذا باید ابتدا عمل پیش یردازش بررویداده های نامتوازن صورت پذیرد و نمونه برداری مجدد بر روی مجموعه داده انجام شود و بعد از آن عمل دسته بندی بر رویمجموعه داده اصلاح شده انجام بگیرد. در این روش ابتدا مجموعه داده ها یکبار بر اساس الگوریتم تکنیک نمونه برداری مصنوعیکلاس اقلیت مجدداً نمونه برداری می شود و بار دیگر با استفاده از معیار کانزدیک ترین همسایه نمونه برداری دیگری مجدداً صورتمی پذیرد. سپس دو مجموعه داده نمونه برداری شده توسط دو دسته بند شبکه عصبی مجزا آموزش دیده شده و در نهایت خروجیاین دو دسته بند به دسته بند شبکه عصبی جهت تعیین مقدار آستانه و تشخیص نهایی تراکنش تقلب و عدم تقلب در تیراکنش دادهمی شود. لازم به ذکر است که معیار فراخوانی در روش پیشنهادی نتیجه بهتری نسبت به دسته بندهای معمول نظیر درخت تصمیمو شبکه بیزین و ماشین بردار پشتیبان و ... از خود نشان داد.

کلیدواژه ها

داده های نامتوازن، شبکه عصبی، تراکنش تقلبی و غیرتقلبی، دسته بندی، فاصله منهتن، کا نزدیکترین همسایه، مجموعه داده بانکی، داده کاوی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.