استفاده از تکنیک خوشه بندی در جداسازی رکوردهای داده صفحات وب نیمه ساختیافته

سال انتشار: 1389
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,909

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC04_101

تاریخ نمایه سازی: 15 دی 1389

چکیده مقاله:

امروزه داده های بسیار زیادی از انواع مختلف برروی اینترنت قرا ردارد کاربران مختلف اطلاعات مورد نیاز خود را در اینترنت جستجو می کنند بهعلت ناهمگنی و رشد سریع تولید صفحات وب، روشهای قدیمی جستجوی اطلاعات مانند مرور مرحله به مرحله صفحات و دنبال کردن فراپیوندها یا استفاده از موتورهای جستجو کارایی چندانی ندارند. از این رو شاخه جدیدی از علم کامپیوتر به نام استخراج اطلاعات مطرح شده است در استخراج اطلاعات از الگوریتمهای هوشمند در جهت استخراج داده های مورد نیاز کاربران و قرار دادن این اطلاعات در یک ساختار مناسب استفاده می شود بطوریکه این داده قابلیت پرس و جو را داشته باشد در اکثر سیستم های استخراج اطلاعات از صفحات وب از ساختار صفحه وب به عنوان مثال برچسبهای HTML درجهت پیدا کردن اطلاعات مفید صفحه وب استفاده می شود دراین مقاله الگوریتمی مطرح شده که به کمک یک هستان شناسی و با استفاده از ساختار صفحه وب و ازمون 2% ناحیه اصلی صفحه وب که اطلاعات مورد نظر در آن وجود دارد را تشخیص داده می شود. بعد از تشخیص ناحیه اصلی رکوردهای موجوددر ناحیه اصلی صفحه وب با استفاده از یک الگوریتم خوشه بندی تشخیص داده می شوند.

کلیدواژه ها:

رکورد داده ، هستان شناسی ، صفحه وب نیمه ساختیافته ، خوشه بندی