ارائه یک شیوه ابتکاری انتخاب نمونه به منظور کاهش داده های حجیم در داده کاوی

سال انتشار: 1388
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 3,598

فایل این مقاله در 16 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC03_020

تاریخ نمایه سازی: 13 دی 1389

چکیده مقاله:

هرچند حجم بسیار زیاد داده ها یک موضوع اصلی داده کاوی است ولی غالب روشهای ارائه شده نیاز به پیش پردازشهایی در جهت کاهش حجم داده دارند عموما روشهای ابتدایی کاهش نمونه به عنوان قسمتی از فاز پیش پردازش به کار گرفته می شوند تا سرعت مرحله ی یادگیری و ارزیابی با پیچیدگی الگوریتم یادگیری متناسب شود بدین ترتیب تعمیم پذیری و نرخ کاهش داده مسئله ی اصلی در این زمینه است و افزایش دقت در مرحله اصلی یادگیری اهمیت می یابد درحالت کلی دو دسته الگوریتم کاهش فضا وجود دارند این روشها یا توده های مرکزی را حذف کرده و سعی در حفظ مرزها دارند و یا اینکه نمونه مرزی را کم ارزش فرض کرده و برای افزایش تعمیم پذیری داده های نزدیک به مرکز کلاس ها را حفظ می کنند در مورد برخی از الگوریتمهای یادگیری هیچ کدام از این دو مورد مناسب نیستند. حذف انتخای ازنقاط خاصی از فضا توزیع اماری داده ها را تغییر داده و با تغییر مبنای فاصله فاز یادگیری را دچار مشکل می کند در روش ارائه شده دراین مقاله یک الگوریتم ابتکاری برای تنک کردن داده ها مطرح و نتایج ارزیابی آن برروی داده های کشف نفوذ اورده شده است.

کلیدواژه ها:

کاهش داده ، یادگیری برپایه ی نمونه اولیه ، یادگیری برپایه ی نماینده ، تعمیم پذیری ، نزدیک ترین همسایه ، کشف نفوذ ، هرس کردن ، نمونه های غلط

نویسندگان

سیدمحمدرضا موسوی

بخش مهندسی و علوم کامپیوتر دانشکده مهندسی دانشگاه شیراز

مهسا فضائلی جوان

بخش مهندسی و علوم کامپیوتر دانشکده مهندسی دانشگاه شیراز

سمانه قدرت نما

بخش مهندسی و علوم کامپیوتر دانشکده مهندسی دانشگاه شیراز

محمدهادی صدرالدینی

بخش مهندسی و علوم کامپیوتر دانشکده مهندسی دانشگاه شیراز