یک روش خوشه بندی توزیع شده مبتنی بر Kmeans برای حفظ محرمانگی در انتشار داده های حجیم

سال انتشار: 1401
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 215

فایل این مقاله در 19 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEITCONF06_071

تاریخ نمایه سازی: 26 خرداد 1402

چکیده مقاله:

یکی از مراحل اساسی در چرخه حیات داده،انتشار آن برای تحلیل گران داده جهت کشف الگوهای مفید و ناشناخته است.انتشار داده ممکن است،باعث افشای ناخواسته اطلاعات افراد شود و مشکلاتی برای نامحرمانگی ایجاد کند.تحقیقات نشان داده ایت که گمنام سازی داده برای برا.رد کردن مدل های محرمانگی در داده های انتشاری یک روش کارا برای جلوگیری از افشای اطلاعات محرمانه افراد است.در این مقاله،برای گمنام سازی داده ها،از خوشه بندی سلسله مراتبی داده ها جهت براورد کردن مدل،l-diversity استفاده می شود. ما دو تابع فاصله جدید بر اساس فاصله منهتن و اقلیدس برای محاسبه فاصله رکورد ها در الگوریتم خوشه بندیk-means ارائه داده ایم،که این تابع نیاز های مدل محرمانگی l-diversity را داده های انتشاری براوره می کنند .یکی از نیاز های روش های گمنام سازی برقراری مصالحه بین محرمانگی و میزان استفاده از داده است. بنابراین در طراحی توابع فاصله پیشنهادی ،از معیار نزدیکی داده ها به همدیگر،بر اساس مدل محرمانگی l-diversity استفاده شده،تا مصالحه بهتری محرمانگی و استفاده داده به وجود اید.روش پیشنهادی این مقاله،به صورت توزیع شده و با استفاده از برنامه نویسی RDD ها در چهارچوب آپاچی سپارک رائه شده است،تا چالش سرعت در اعملیات گمنام سازی داده های حجیم و مقیاس پذیری روش پیشنهادی را حل نمیاد در اخر پیاده سازی و آزمایشات انجام شده کارایی و مفید بودن روش پیشنهادی را نشان داده است

کلیدواژه ها:

نویسندگان

فاروق اشکوتی

استادیار هیات علمی دانشگاه،گروه کامپیوتر ،واحد مهاباد،دانشگاه آز اد اسلامی،مهاباد،ایران

رحیم رشیدی

استادیار هیات علمی دانشگاه،گروه کامپیوتر ،واحد بوکان دانشگاه آزاد اسلامی ،بوکان،ایران