مدیریت داده های عظیم در موتورهای جستجو

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 444

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

BIGDATA01_013

تاریخ نمایه سازی: 26 مرداد 1397

چکیده مقاله:

از سامانه هایی که با داده ه ای عظیم سروکار دارندموتورهای جستجوی می باشند. مطابق آمار، موتوره ای جستجو یپرکاربرد دنیا مانند گوگل و بینگ میلیاردها صفحه را تحتپوشش قرار داده و چندین میلیارد پرس و جو در روز دریافت می-کنند. برای مثال مطابق آمار ارایه شده توسط موتور جستجو یایرانی پارسی جو، بیش از پانصد میلیون سند فارسی توسط اینموتور خزش شده و قادر است تا دو میلیارد سند را به صورتمتوالی خزش نماید. حجم داده های جمع آور ی شده با سربارنگهداری به بیش از 40 ترابایت می رسد. همچنین تعداد اتصالاتموجود در گراف وب که لازم است جهت رتبه بندی پردازش شوندبه بیش از ده میلیارد داده می رسد. به علاوه تعداد واژه هایی کهمیبایست برای نمایه سازی و جواب دادن به پرس جوی کاربرآماده شوند به بیش از پانصد میلیون واژه رسیده است. طبیعیاست که برای پردازش این حجم بزرگ از داده با چالش هایجدیدی مواجه خواهیم بود و راهکارهای سنتی جوابگو نخواهندبود. در این مقاله ساختار موتورهای جستجو را بررسی کرده وراهکاری استفاده شده برای مدیریت داده های عظیم ارایه خواهد شد.

نویسندگان

علی محمد زارع بیدکی

آزمایشگاه وب، دانشگاه یزد

فاطمه کاوه یزدی

آزمایشگاه وب، دانشگاه یزد