روش های داده کاوی برای یافتن داده های تکراری در پایگاه داده های بزرگ

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,033

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

MGCONF02_059

تاریخ نمایه سازی: 11 شهریور 1397

چکیده مقاله:

داده کاوی، پایگاه ها و مجموعه های حجیم داده را برای کشف و استخراج دانش، مورد تحلیل قرار می دهد. در سال های اخیر داده کاوی، با توجه به دسترسی گسترده به مقادیر بسیار زیاد داده و نیاز به تبدیل چنین داده هایی به اطلاعات و دانش مفید، در صنعت اطلاعات و در کل جامعه، توجه زیادی را به خود جلب کرده است. اطلاعات و دانش حاصل می تواند برای برنامه های کاربردی نظیر تجزیه و تحلیل بازار، تشخیص تقلب، حفظ مشتری، کنترل تولید و اکتشاف علمی و ... استفاده شود. یکی از مشهورترین تکنیک های داده کاوی برای تصمیم گیرندگان تجاری در پایگاه داده های بزرگ استخراج قوانین وابستگی است. کشف قوانین وابستگی در قلب داده کاوی قرار دارد. پیدا کردن مجموعه داده های تکراری، فرآیند اصلی در یافتن قانون وابستگی است. الگوریتم های بسیار زیادی برای پیدا کردن الگوهای تکراری وجود دارند که در این مقاله تعدادی از آن ها ارایه شده است. Apriori و FP-tree متداول ترین روش ها برای یافتن آیتم های مکرر هستند. روش های دیگر از جمله Apriori TID، AIS، SETM و TR-FCTM² می باشند. Apriori با استفاده از تولید کاندیدا با تعداد بیشتری از اسکن های پایگاه داده، تعداد قابل ملاحظه ای آیتم تکراری پیدا می کند. FP-tree برای پیدا کردن آیتم های تکراری از دو اسکن پایگاه داده بدون استفاده از تولید کاندید استفاده می کند. روش TR-FCTM با ایجاد یکباره ی کاندیدها به منظور تشکیل جدول شمارش تکرار با یک اسکن پایگاه داده، آیتم های تکراری را پیدا می کند. بررسی ها نشان می دهد که الگوریتم TR-FCTM عملکرد بهتری نسبت به Apriori و FP-tree دارد.

نویسندگان

آزاده پیرحیاتی

دپارتمان مهندسی کامپیوتر، دانشکده فنی دختران بروجرد، دانشگاه فنی و حرفه ای استان لرستان، ایران