روش تلفیقی خوشه بندی مبتنی بر چگالی و مدل مخلوط گوسین به منظور بهبودطبقه بندی دادههای نامتوازن و نویزی

  • سال انتشار: 1400
  • محل انتشار: کنفرانس ملی آخرین دستاوردهای مهندسی داده و دانش و محاسبات نرم
  • کد COI اختصاصی: CONFSKU01_008
  • زبان مقاله: فارسی
  • تعداد مشاهده: 347
دانلود فایل این مقاله

نویسندگان

الهام هاشمی بنی

گروه کامپیوتر ، دانشکده فنی و مهندسی ، واحد شهرکرد ، دانشگاه آزاد اسلامی ، شهرکرد ، ایران

بهزاد زمانی دهکردی

گروه کامپیوتر ، دانشکده فنی و مهندسی ، واحد شهرکرد ، دانشگاه آزاد اسلامی ، شهرکرد ، ایران

پویا خسرویان دهکردی

گروه کامپیوتر ، دانشکده فنی و مهندسی ، واحد شهرکرد ، دانشگاه آزاد اسلامی ، شهرکرد ، ایران

چکیده

با رشد روز افزون سیستمهای اطلاعاتی و افزایش سریع حجم داده های داده کاوی و ابزارهای آن نقش مهمی در مدیریت و تصمیم گیری بر اساس دانش نهفته در داده ها دارند. طبقه بندی یکی از مهمترین ابزارهای داده کاوی می باشد. دو مشکل اصلی در داده ها وجود دارد. اول مشکل عدم توازن نمونه های آموزشی در کلاس های مختلف، دوم مشکل وجود نویز در داده ها. در این پژوهش یک روش تلفیقی برای حل این دو مشکل در طبقه بندی داده ها ارائه شده است. برای حل مشکل وجود نویز در داده ها از ترکیب دو الگوریتم مقاوم در برابر نویز DBSCAN و مدل ترکیبی گوسین به عنوان طبقه بند استفاده شده است. همچنین برای مشکل عدم توازن نمونه های آموزش، هر کلاس را به زیرمجموعه هایی تقسیم می کنیم سپس با توجه به این زیرمجموعه ها یک طبقه بند را برای آن کلاس آموزش می دهیم. الگوریتم پیشنهادی روی دیتایتهای مجموعه UCI تست شده است و در مقایسه با سایر الگوریتم های طبقه بندی دیگر با توجه به نتایج آزمایشات، الگوریتم پیشنهادی دقت بهتری داشته است.

کلیدواژه ها

داده کاوی، عدم توازن داده، نویزی بودن داده، الگوریتم DBSCAN ، مدل ترکیبی گوسین

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.