جنگل تصادفی مبتنی بر الگوریتم VFDT+ برای جریان داده

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 392

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ELEMECHCONF06_014

تاریخ نمایه سازی: 22 آذر 1399

چکیده مقاله:

الگوریتمVFDT+یک الگوریتم طبقه بندی برای جریانداده است. این الگوریتم تعمیم یافته ی الگوریتم درخت تصمیم سریع میباشد. وقتی مقدار زیادی از داده را پردازش میکنیم، VFDT+ به زمان کمتری نسبت به الگوریتم های سنتی دارد. اگرچه وقتی نمونه های آموزش کمتر میشوند مقدار برچسب گره های برگ VFDT+ خطاهای بیشتری خواهد داشت و توانایی طبقه بندی درخت تصمیم VFDT+ واحد محدود میشود. الگوریتم جنگل تصادفی یک طبقه بندی ترکیبی با دقت پیشگویی بالا و توانایی تحمل نویز است. الگوریتم جنگل تصادفی از چندین درخت تصمیم تشکیل شده است و میتواند کمبود درخت تصمیم واحد را جبران کند. در این مقاله با توجه به منظور بهبود دقت طبقه بندی در جریان داده، الگوریتم جنگل تصادفی در فرآیند ساخت درخت الگوریتم VFDT+ ادغام شده است و یک الگوریتم جدید جنگل تصادفی مبتنی برVFDT+ به نامRFVFDT+ طراحی شده است. الگوریتم RFVFDT+معیار ساخت درخت تصمیم را از طبقه بندی جنگل تصادفی اتخاذ میکندو الگوریتم جنگل تصادفی را با پنجره کشویی بهبود می بخشد تا با عدم محدودیت جریان داده مواجه شود و از تاخیر فرآیند و از بین رفتن داده ها خودداری کند. نتایج تجربی طبقه بندی مجموعه داده KDD CUP نشان میدهد که دقت طبقه بندی الگوریتم RFVFDT+ بیشتر از VFDT+ است. هرچه نمونه ها کمتر باشد، مزیت آن آشکارتر است.

نویسندگان

رویا زارع فرخادی

هیت علمی گروه نرم افزار، موسسه آموزش عالی غیرانتفاعی و غیردولتی رشدیه تبریز،

مهدیه یوسفی

گروه مهندسی نرم افزار،دانشکده موسسه آموزشعالی غیرانتفاعی و غیردولتی رشدیه تبریز،