مدیریت داده های عظیم در موتورهای جستجو

علی محمد زارع بیدکی; فاطمه کاوه یزدی

مدیریت داده های عظیم در موتورهای جستجو

محل انتشار: همایش داده های عظیم

سال انتشار: 1393

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 643

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/754177

شناسه ملی سند علمی:

BIGDATA01_013

تاریخ نمایه سازی: 26 مرداد 1397

چکیده مقاله:

از سامانه هایی که با داده ه ای عظیم سروکار دارندموتورهای جستجوی می باشند. مطابق آمار، موتوره ای جستجو یپرکاربرد دنیا مانند گوگل و بینگ میلیاردها صفحه را تحتپوشش قرار داده و چندین میلیارد پرس و جو در روز دریافت می-کنند. برای مثال مطابق آمار ارایه شده توسط موتور جستجو یایرانی پارسی جو، بیش از پانصد میلیون سند فارسی توسط اینموتور خزش شده و قادر است تا دو میلیارد سند را به صورتمتوالی خزش نماید. حجم داده های جمع آور ی شده با سربارنگهداری به بیش از 40 ترابایت می رسد. همچنین تعداد اتصالاتموجود در گراف وب که لازم است جهت رتبه بندی پردازش شوندبه بیش از ده میلیارد داده می رسد. به علاوه تعداد واژه هایی کهمیبایست برای نمایه سازی و جواب دادن به پرس جوی کاربرآماده شوند به بیش از پانصد میلیون واژه رسیده است. طبیعیاست که برای پردازش این حجم بزرگ از داده با چالش هایجدیدی مواجه خواهیم بود و راهکارهای سنتی جوابگو نخواهندبود. در این مقاله ساختار موتورهای جستجو را بررسی کرده وراهکاری استفاده شده برای مدیریت داده های عظیم ارایه خواهد شد.

کلیدواژه ها:

موتور جستجو ، خزشگر ، گراف وب ، رتبه بندی ، پردازش زبانی

نویسندگان

علی محمد زارع بیدکی

آزمایشگاه وب، دانشگاه یزد

فاطمه کاوه یزدی

آزمایشگاه وب، دانشگاه یزد