تشخیض داده های پرت با استفاده از بهبود عملکرد الگوریتم تشخیض داده های خاص با استفاده از برچسب مثبت
محل انتشار: کنفرانس ملی دانش و فناوری علوم مهندسی ایران
سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 322
فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
MGCONF01_099
تاریخ نمایه سازی: 11 مرداد 1396
چکیده مقاله:
همواره یکی از مهمترین دغدغه های داده کاوان در اختیار داشتن داده هایی صحیح و عاری از خطاست. داده هایی که اشتباهات انسانی در آ وجود نداشته و رکوردهای آن تماما پر و حاوی داده هایی صحیح باشند. اما واضح است که چنین مجموعه ی داده ای در سطح بسیار کوچک هم قابل دسترسی نخواهد بود. حال آنکه داده کاوان معمولا با مجموعه داده های عظیم کار خواهند کرد. در تمامی مطالعات وجود داده نامتعارف و دور افتاده از مسایل مشکل ساز در تجزیه و تحلیل نتایج هست. داده نامتعارف داده ای است که به قدری از سایر مشاهدات انحراف داشته باشد که این گمان را به وجود می آورد که با مکانیزم متفاوتی ایجاد شده است. تکنیک های شناسایی داده نامتعارف را بر اساس داده بر چسب دار می توان به سه گروه تقسیم کرد. در تکنیک های نظارتی شناسایی داده نامتعارف، داده آموزشی حاوی نمونه های برچسب دار برای هر دو دسته نرمال و نامتعارف است. در تکنیک های نیمه نظارتی، داده آموزشی برچسب داری موجود نیست. در بین تکنیک های شناسایی داده نامتعارف، تکنیک های غیرنظارتی و تکنیک های نیمه نظارتی با نمونه های نرمال برچسب دار برای آموزش، از عمومیت بیشتری برخوردارند. در این پژوهش برای یافتن نقاط خاص و نامتعارف در سه مجموعه داده سرطان سینه، بازیکنان بستکتبال NBA و باغ وحش از ترکیب دو روش جهت یافتن داده های نامتعارف به صورت نیمه نظارتی و یافتن تشابه بین داده های برچسب دار موجود و داده های بدون برچسب با استفاده از تابع زنگوله ای پس از پیش پردازش های اولیه استفاده شده است. برای ارزیابی این روش پیشنهادی از معیارهای آخرین رتبه، میانه، میانگین و انحراف معیار استفاده شده است که با مقایسه نتایج این روش با الگوریتم پایه بهبود نتایج به صورت نسبی دیده شده است.
کلیدواژه ها:
داده های نامتعارف ، داده های برچسب دار ، تکنیک های شناسایی ، الگوریتم پایه ، تابع زنگوله ای ، شناسایی داده
نویسندگان
حسن آقازاده
کارشناسی ارشد مهندسی فناوری اطلاعات، دانشگاه آزاد اسلامی، واحد صفاشهر
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :