روش های داده کاوی برای یافتن داده های تکراری در پایگاه داده های بزرگ

آزاده پیرحیاتی

روش های داده کاوی برای یافتن داده های تکراری در پایگاه داده های بزرگ

محل انتشار: دومین کنفرانس ملی دانش و فناوری علوم مهندسی ایران

سال انتشار: 1397

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,346

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > داده کاوی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/766248

شناسه ملی سند علمی:

MGCONF02_059

تاریخ نمایه سازی: 11 شهریور 1397

چکیده مقاله:

داده کاوی، پایگاه ها و مجموعه های حجیم داده را برای کشف و استخراج دانش، مورد تحلیل قرار می دهد. در سال های اخیر داده کاوی، با توجه به دسترسی گسترده به مقادیر بسیار زیاد داده و نیاز به تبدیل چنین داده هایی به اطلاعات و دانش مفید، در صنعت اطلاعات و در کل جامعه، توجه زیادی را به خود جلب کرده است. اطلاعات و دانش حاصل می تواند برای برنامه های کاربردی نظیر تجزیه و تحلیل بازار، تشخیص تقلب، حفظ مشتری، کنترل تولید و اکتشاف علمی و ... استفاده شود. یکی از مشهورترین تکنیک های داده کاوی برای تصمیم گیرندگان تجاری در پایگاه داده های بزرگ استخراج قوانین وابستگی است. کشف قوانین وابستگی در قلب داده کاوی قرار دارد. پیدا کردن مجموعه داده های تکراری، فرآیند اصلی در یافتن قانون وابستگی است. الگوریتم های بسیار زیادی برای پیدا کردن الگوهای تکراری وجود دارند که در این مقاله تعدادی از آن ها ارایه شده است. Apriori و FP-tree متداول ترین روش ها برای یافتن آیتم های مکرر هستند. روش های دیگر از جمله Apriori TID، AIS، SETM و TR-FCTM² می باشند. Apriori با استفاده از تولید کاندیدا با تعداد بیشتری از اسکن های پایگاه داده، تعداد قابل ملاحظه ای آیتم تکراری پیدا می کند. FP-tree برای پیدا کردن آیتم های تکراری از دو اسکن پایگاه داده بدون استفاده از تولید کاندید استفاده می کند. روش TR-FCTM با ایجاد یکباره ی کاندیدها به منظور تشکیل جدول شمارش تکرار با یک اسکن پایگاه داده، آیتم های تکراری را پیدا می کند. بررسی ها نشان می دهد که الگوریتم TR-FCTM عملکرد بهتری نسبت به Apriori و FP-tree دارد.

کلیدواژه ها:

داده کاوی ، قانون وابستگی ، اقلام تکراری ، پایگاه داده بزرگ ، تولید کاندید

نویسندگان

آزاده پیرحیاتی

دپارتمان مهندسی کامپیوتر، دانشکده فنی دختران بروجرد، دانشگاه فنی و حرفه ای استان لرستان، ایران