تاثیر گمشدگی بر روی پایگاه های داده و مروری بر روش های برخورد با گمشدگی

ندا ایزدی دخرابادی; فاطمه فضلی خانی

تاثیر گمشدگی بر روی پایگاه های داده و مروری بر روش های برخورد با گمشدگی

محل انتشار: دومین کنفرانس ملی پژوهش های نوین در برق، کامپیوتر و مهندسی پزشکی

سال انتشار: 1397

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 364

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > داده کاوی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1197709

شناسه ملی سند علمی:

KAUCEE02_138

تاریخ نمایه سازی: 18 اردیبهشت 1400

چکیده مقاله:

طیف گسترده ای از پایگاه داده ها وجود دارند که دارای اطلاعات ازدست رفته یا سانسور شده میباشند. تمامی روشهای برآورد پارامترها بر پایه فرض کامل بودن مجموعه داده ها استوار است و تحت برقراری این شرایط منجر به برآوردهایی نا اریب میشوند. از این رو موضوع گمشدگی داده ها، همواره به عنوان یکی از مهمترین مباحث علم آمار و کامپیوتر مورد توجه قرار گیرد، به همین دلیل راهکارهای مختلفی برای حل این مشکل ارائه شده است. برخی از روشهای ابتدایی در رویارویی با مقادیر گمشده، حذف رکوردها و یا جایگزینی با میانگین یا مد داده های موجود است. این روشها به دلیل سادگی پیاده سازی و قابل فهم بودن، از محبوبیت بالایی برخوردارند. حال آنکه، ممکن است منجر به ایجاد مشکلات زیادی نیز شوند. به عنوان مثال، حذف رکوردهای دارای مقادیر گمشده در صورتی که رکوردهای باقیمانده نتواند نماینده خوبی برای جامعه باشد، منجر به ایجاد انحراف در داده ها میشود. علاوه بر این رکوردهای دارای مقادیر گمشده، دارای ارزش اطلاعاتی هستند و حذف آنها به معنی دور ریختن اطلاعات است. یا مثلا در روش جانهی با میانگین، داده های گمشده با میانگین داده های موجود جایگزین میشود، از آنجا که این مقدار به جای تمام مقادیر گمشده جایگزین میشود، روش جانهی با میانگین، واریانس موجود در این متغیر را کاهش میدهد و روابط بین متغیرها را نیز نادیده میگیرد. لذا با توجه به اهمیت کیفیت داده ها، باید از روشهای بسیار کارآمدتری برای رفع مشکل داده های گمشده استفاده کرد تا داده هایی با کیفیت داشته باشیم. در نوعی دیگر از جانهی داده های گمشده، بر اساس اطلاعاتی مشخص که با اطلاعات گمشده ارتباط دارند، همه مقادیر گمشده را برآورد کرده، سپس با استفاده از تکنیکهای استاندارد معمول، داده های کامل شده را تحلیل می کنند.

کلیدواژه ها:

داده های گمشده ، جانهی ، داده کاوی

نویسندگان

ندا ایزدی دخرابادی

فاطمه فضلی خانی