استفاده از تکنیک خوشه بندی در جداسازی رکوردهای داده صفحات وب نیمه ساختیافته
محل انتشار: چهارمین کنفرانس داده کاوی ایران
سال انتشار: 1389
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,909
فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IDMC04_101
تاریخ نمایه سازی: 15 دی 1389
چکیده مقاله:
امروزه داده های بسیار زیادی از انواع مختلف برروی اینترنت قرا ردارد کاربران مختلف اطلاعات مورد نیاز خود را در اینترنت جستجو می کنند بهعلت ناهمگنی و رشد سریع تولید صفحات وب، روشهای قدیمی جستجوی اطلاعات مانند مرور مرحله به مرحله صفحات و دنبال کردن فراپیوندها یا استفاده از موتورهای جستجو کارایی چندانی ندارند. از این رو شاخه جدیدی از علم کامپیوتر به نام استخراج اطلاعات مطرح شده است در استخراج اطلاعات از الگوریتمهای هوشمند در جهت استخراج داده های مورد نیاز کاربران و قرار دادن این اطلاعات در یک ساختار مناسب استفاده می شود بطوریکه این داده قابلیت پرس و جو را داشته باشد در اکثر سیستم های استخراج اطلاعات از صفحات وب از ساختار صفحه وب به عنوان مثال برچسبهای HTML درجهت پیدا کردن اطلاعات مفید صفحه وب استفاده می شود دراین مقاله الگوریتمی مطرح شده که به کمک یک هستان شناسی و با استفاده از ساختار صفحه وب و ازمون 2% ناحیه اصلی صفحه وب که اطلاعات مورد نظر در آن وجود دارد را تشخیص داده می شود. بعد از تشخیص ناحیه اصلی رکوردهای موجوددر ناحیه اصلی صفحه وب با استفاده از یک الگوریتم خوشه بندی تشخیص داده می شوند.
کلیدواژه ها: