طبقه بندی کلان داده های نامتعادل با استفاده از الگوریتم جنگل تصادفی

  • سال انتشار: 1394
  • محل انتشار: دومین کنفرانس بین المللی و سومین همایش ملی کاربرد فناوری های نوین در علوم مهندسی
  • کد COI اختصاصی: ITCC02_269
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1468
دانلود فایل این مقاله

نویسندگان

وحید فاضلی نیا

دانشجوی کارشناسی ارشد، کامپیوتر نرمافزار، دانشگاه بین المللی امام رضا (ع)، مشهد، ایران

عادل قاضی خانی

عضو هیئت علمی، کامپیوتر نرمافزار، دانشگاه بین المللی امام رضا (ع)، مشهد، ایران

پوریا محمدعلمی

دانشجوی کارشناسی ارشد، کامپیوتر نرمافزار، دانشگاه بین المللی امام رضا (ع)، مشهد، ایران

چکیده

با افزایش رو به رشد نمایی داده ها و حجم بزرگی از آنها که به وجود آمده است، روز به روز نیاز به پررداز وتحلیل این داده های کلان بیشتر میشود. طبقه بندی داده ها، شکلی از تحلیل داده ها تلقی می شود، که در آنمدل هایی جهت توصیف کلاسهای مهمی از داده ها استخراج می شود . یکی از اهداف اصلی در طبقه بندیداده ها رسیدن به صحت بالاست و یکی از متدها برای رسیدن به این هدف استفاده از یادگیری تلفیقی است .جنگل تصادفی به عنوان درخت تصمیم تلفیقی شناخته می شود و کارایی خوبی هم در طبقه بندی داده های کلاندارد. طبقه بندی مجموعه داده های نامتعادل چالشی را برای اکثر تکنیک های یادگیری استاندارد به وجود آوردهاست و الگوریتم جنگل تصادفی هم تحت تاثیر مندی توزیع کلاس نامتعادل قرار گرفته است. در این کار، ازمتد SplitBal که روشی جدید در ایجاد تعادل داده های نامتعادل می باشد، برای متعادل سازی داده های کلاننامتعادل استفاده گردیده است و در نهایت کار طبقه بندی این نوع داده ها را با کمک الگوریتم جنگل تصادفیانجام داده ایم. نتایج این کار در مقابل کارهای انجام شده از جمله نمونه زدایی تصادفی و نمونه افزایی تصادفی وروش حساس به هزینه نتایجی بهتر در زمان اجرا و کارایی طبقه بندی را در بعضی از نگاشت کننده ها نشان می -دهد که مزیت این روش در مقابل دیگر روش ها نداشتن سربار و از دست دادن داده های مدید است. در این کاراز روش ارزیابی میانگین هندسی برای مقایسه روش پیشنهادی نسبت به روش های دیگر استفاده شده است.

کلیدواژه ها

کلان داده ها، نگاشت کاهش، مجموعه داده های نامتعادل، یادگیری تلدیقی،جنگل تصادفی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.