یک روش ویرایشی تراکمی نوین برای شناسایی نمونه داده های پرت در مسائل کلاسه بندی

سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,249

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ACCSI14_035

تاریخ نمایه سازی: 26 مهر 1387

چکیده مقاله:

در مسائل کلاسه بندی، داده های پرت به نمونه هایی اطلاق می شود که با همسایه های خود (نزدیکترین نمونه ها به نمونه ی مورد نظر) هماهنگی ندارند. به عبارت دیگر، نمونه داده ای از یک کلاس در بین تعدادی از نمونه های مربوط به کلاس دیگر محصور باشد. عوامل اصلی بروز چنین داده هایی معمولا نویزها و خطاهای اندازه گیری می باشند. در نتیجه حذف این نمونه ها از مجموعه داده های آموزشی بعنوان یک عملیات پیش پردازش می تواند به دقت کلاسه بند و همچنین کارایی آن از لحاظ حافظه و زمان کمک قابل توجی نماید. روش های شناسایی و حذف نمونه های پرت را می توان به دو زیر گروه اصلی تقسیم کرد؛ روشهای ویرایشی و روشهای تراکمی. هدف روش های ویرایشی غالبًا بهبود کارایی و دقت کلاسه بندی به کمک حذف نمونه های نویزی می باشد. از طرف دیگر، هدف روش های تراکمی حذف نمونه هایی است که در عمل کلاسه بندی تاثیری ندارند. در واقع، سعی این روش ها یافتن زیرمجموعه ای بسیار کاهش یافته از فضای دادهای آموزشی به کمک حذف نمونه های داخلی جهت بهبود سرعت و حافظه می باشد. در این مقاله، ما یک روش ویرایشی‐ تراکمی جدید برای شناسایی نمونه های پرت ارائه می کنیم. عملکرد الگوریتم پیشنهادی بر پایه عملگرهای سریع بیتی می باشد. پس از مشاهده تاثیر الگوریتم بر سرعت یک کلاسه بند، تاثیر آن را در افزایش دقت کلاسه بند نیز بررسی می نماییم. بدین منظور روش پیشنهادی را روی چند مجموعه داده استاندارد که ماهیت نویزی دارند، اعمال نموده و سپس عمل کلاسه بندی را انجام می دهیم. دقت کلاسه بند حاصل را با حالت بدون حذف نمونه های پرت و نیز با چند روش معروف مقایسه می کنیم.

نویسندگان

س.م فخر احمد

عضو هیات علمی دانشگاه آزاد اسلامی واحد شیراز

م.ه صدرالدینی

استادیار بخش مهندسی کامپیوتر، دانشگاه شیراز

م ذوالقدری جهرمی

دانشیار بخش مهندسی کامپیوتر، دانشگاه شیراز