تاثیر گمشدگی بر روی پایگاه های داده و مروری بر روش های برخورد با گمشدگی

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 212

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

KAUCEE02_138

تاریخ نمایه سازی: 18 اردیبهشت 1400

چکیده مقاله:

طیف گسترده ای از پایگاه داده ها وجود دارند که دارای اطلاعات ازدست رفته یا سانسور شده میباشند. تمامی روشهای برآورد پارامترها بر پایه فرض کامل بودن مجموعه داده ها استوار است و تحت برقراری این شرایط منجر به برآوردهایی نا اریب میشوند. از این رو موضوع گمشدگی داده ها، همواره به عنوان یکی از مهمترین مباحث علم آمار و کامپیوتر مورد توجه قرار گیرد، به همین دلیل راهکارهای مختلفی برای حل این مشکل ارائه شده است. برخی از روشهای ابتدایی در رویارویی با مقادیر گمشده، حذف رکوردها و یا جایگزینی با میانگین یا مد داده های موجود است. این روشها به دلیل سادگی پیاده سازی و قابل فهم بودن، از محبوبیت بالایی برخوردارند. حال آنکه، ممکن است منجر به ایجاد مشکلات زیادی نیز شوند. به عنوان مثال، حذف رکوردهای دارای مقادیر گمشده در صورتی که رکوردهای باقیمانده نتواند نماینده خوبی برای جامعه باشد، منجر به ایجاد انحراف در داده ها میشود. علاوه بر این رکوردهای دارای مقادیر گمشده، دارای ارزش اطلاعاتی هستند و حذف آنها به معنی دور ریختن اطلاعات است. یا مثلا در روش جانهی با میانگین، داده های گمشده با میانگین داده های موجود جایگزین میشود، از آنجا که این مقدار به جای تمام مقادیر گمشده جایگزین میشود، روش جانهی با میانگین، واریانس موجود در این متغیر را کاهش میدهد و روابط بین متغیرها را نیز نادیده میگیرد. لذا با توجه به اهمیت کیفیت داده ها، باید از روشهای بسیار کارآمدتری برای رفع مشکل داده های گمشده استفاده کرد تا داده هایی با کیفیت داشته باشیم. در نوعی دیگر از جانهی داده های گمشده، بر اساس اطلاعاتی مشخص که با اطلاعات گمشده ارتباط دارند، همه مقادیر گمشده را برآورد کرده، سپس با استفاده از تکنیکهای استاندارد معمول، داده های کامل شده را تحلیل می کنند.