واکاوی و استخراج داده موتور های جستجوگر در حوزه وب با استفاده از روش های ترکیبی

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 63

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IVCONF06_203

تاریخ نمایه سازی: 14 دی 1402

چکیده مقاله:

وب، در سال های اخیر، روند رو به رشدی را طی کرده است و از هزاران صفحه به بیشتر از دو میلیارد صفحه در زمان کنونی رسیده است. با گسترش روزافزون تعداد صفحات وب، موتورهای جستجوی وب باید اطلاعات مرتبط با عبارت مورد جستجو را در اختیار کاربر قرار دهند. موتورهای جستجوی وب همانند بیشتر ابزارهای مخصوص جستجو به WebCrawlerها برای بدست آوردن مجموعه ی بزرگی از صفحات، برای رتبه بندی و فهرست گذاری تکیه می کنند. از آنجاییکه Web Crawler ممکن است در طول چند هفته یا ماه به طور دوره ای، به صفحات جهت به روزرسانی جداول خود مراجعه کند، بکارگیری روش قدرتمند، انعطاف پذیر و مدیریت پذیر برای این کار ضروری به نظر می رسد. بعلاوه کارایی I/O، منابع شبکه و محدودیتهای سیستم عامل نیز باید در نظر گرفته شود.

کلیدواژه ها:

استخراج داده وب - خزنده - وب واکاوی اطلاعات

نویسندگان

میثم عقیلی

کارشناس تحلیل داده شرکت نوآوران فن آوازه