استفاده از تکنیک های حفاری وب جهت استخراج صفحاتی با بیشترین تشابه به صفحه مورد نظر

سال انتشار: 1386
محل انتشار: دهمین کنفرانس دانشجویی مهندسی برق ایران
کد COI اختصاصی: ISCEE10_227
زبان مقاله: فارسی
تعداد مشاهده: 1110

دانلود فایل این مقاله

نویسندگان

زهرا شعاعی شیره جینی

تهران آزاد دانشگاه صنعتی شریف

پروین عابدی

دانشگاه آزاد اسلامی واحد شوشتر

نغمه حیدری

دانشگاه جندی شاپوراهواز

چکیده

با افزایش و رشد وب، داده های موجود در آن به سرعت در حال افزایشند در طی ده سال اخیر حجم عظیمی از داده ها ی مورد نیاز انسان در وب ذخیره شده است. علی رغم حجم عظیم داده های در دسترس در وب، طبق آمارهای اعلام شده تقریبا ٩٩ % داده های موجود برای ، ٩٩ % کاربران بدون استفاده می باشد. به طور کلی استخراج اطلاعات از وب نیازمند استفاده از تکنیک هایی مثل پردازش زبان طبیعی ١ بازیابی اطلاعات ٢، پایگاه داده ها ٣، یادگیری ماشین ٤، حفاری داده ٥و...است در این مقاله در ابتدا به مبحث حفاری وب ٦خواهیم پرداخت و شاخه های مختلف آن را مطرح کرده و در انتها الگوریتمی مطرح خواهیم کرد که بر اسا س ساختار فراپیوندی میان صفحات شبیهترین صفحه به صفحه مد نظر را می یابد. جهت ارزیابی الگوریتم مطرح شده از دادگانی که از سایتPersian blog جمع آوری شده استفاده نمودیم. مقایسه نتایج حاصل از روش پیشنهادی با نتایج حاصل از google نشان دهنده حدود ٨٠ % همپوشانی با نتایج موتور جستجوگرgoogle است.

کلیدواژه ها

حفاری داده، حفاری وب، جستجو هوشمند در وب، صفحات مشابه

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.