بررسی عدم توازن و نویزی بودن داده ها

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 287

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CONFSKU01_009

تاریخ نمایه سازی: 17 آبان 1400

چکیده مقاله:

با رشد روز افزون سیستم های اطلاعاتی و افزایش سریع حجم دادههای، داده کاوی و ابزارهای آن نقش مهمی در مدیریت و تصمیم گیری بر اساس دانش نهفته در داده ها دارند. طبقه بندی یکی از مهمترین ابزارهای داده کاوی می باشد. دو مشکل اصلی در داده ها وجود دارد. اول مشکل عدم توازن نمونه های آموزشی در کلاس های مختلف، دوم مشکل وجود نویز در داده ها. در این پژوهش یک روش تلفیقی برای حل این دو مشکل در طبقه بندی داده ها ارائه شده است. برای حل مشکل وجود نویز در داده ها از ترکیب دو الگوریتم مقاوم در برابر نویز DBSCAN و مدل ترکیبی گوسین به عنوان طبقه بند استفاده شده است. همچنین برای مشکل عدم توازن نمونه های آموزش، هر کلاس را به زیر مجموعه هایی تقسیم می کنیم سپس با توجه به این زیرمجموعه ها یک طبقه بند را برای آن کلاس آموزش می دهیم. الگوریتم پیشنهادی روی دیتایتهای مجموعه UCI تست شده است و در مقایسه با سایر الگوریتم های طبقه بندی دیگر با توجه به نتایج آزمایشات، الگوریتم پیشنهادی دقت بهتری داشته است.

نویسندگان

الهام هاشمی بنی

گروه کامپیوتر ، دانشکده فنی و مهندسی ، واحد شهرکرد ، دانشگاه آزاد اسلامی ، شهرکرد ، ایران

بهزاد زمانی دهکردی

گروه کامپیوتر ، دانشکده فنی و مهندسی ، واحد شهرکرد ، دانشگاه آزاد اسلامی ، شهرکرد ، ایران

پویا خسرویان دهکردی

گروه کامپیوتر ، دانشکده فنی و مهندسی ، واحد شهرکرد ، دانشگاه آزاد اسلامی ، شهرکرد ، ایران