تحلیل و بررسی تکنیک های نمایه سازی (Indexing) در کلان داده ها و راهکارهای بهینه سازی آن

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 60

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

EMACO03_3298

تاریخ نمایه سازی: 19 خرداد 1405

چکیده مقاله:

با رشد فزاینده حجم و سرعت تولید کلان داده ها، ساختارهای سنتی نمایه سازی مانند درخت های B+ و درخت های LSM با چالش های جدی در زمینه اشغال حافظه، افزایش نوشتار Write Amplification) )و تاخیر در پرس وجو (Query Latency) در محیط های توزیع شده مواجه هستند. این مقاله به تحلیل جامع پارادایم های موجود نمایه سازی و محدودیت های آن ها در عصر مدیریت داده های مقیاس پذیر می پردازد. ما گذار از جستجوی مبتنی بر مقایسه به سمت جستجوی مبتنی بر تقریب، به ویژه بررسی پتانسیل «نمایه سازی آموخته شده» Learned Indexing) )در مدل سازی توزیع داده ها با استفاده از مدل های یادگیری ماشین را بررسی می کنیم. برای رفع چالش های دقت در مدل های آموخته شده، این مطالعه یک معماری هیبریدی نوین را پیشنهاد می دهد که «نمایه سازی آموخته شده» را با ساختارهای بهینه سازی شده ی «در حافظه» (In-memory)ترکیب می کند. این رویکرد از کارایی پیش بینی کننده مدل های ریاضی برای محدود کردن فضای جستجو استفاده کرده و سپس از ساختارهای در حافظه با قابلیت دسترسی بالا Cache-conscious) ) برای بازیابی دقیق بهره می برد. تحلیل های ما نشان می دهد که این پارادایم هیبریدی، اشغال حافظه را به شدت کاهش داده و نرخ پاسخ دهی پرس وجوها را بهبود می بخشد، در حالی که سازگاری بالا در سیستم های توزیع شده را حفظ می کند. مقاله با بحث در مورد آینده ی نمایه سازی در حوزه پایگاه های داده برداری Vector Databases) )و بازیابی معنایی برای کاربردهای مبتنی بر هوش مصنوعی به پایان می رسد.

کلیدواژه ها:

کلان داده ، تکنیک های نمایه سازی ، نمایه سازی آموخته شده ، محاسبات در حافظه ، معماری های هیبریدی ، سیستم های توزیع شده.

نویسندگان