بررسی روش های استخراج داده وب مبتنی بر آنتالوژی

  • سال انتشار: 1399
  • محل انتشار: کنفرانس ملی سیستم های هوشمند و محاسبات سریع
  • کد COI اختصاصی: ECECON01_001
  • زبان مقاله: فارسی
  • تعداد مشاهده: 713
دانلود فایل این مقاله

نویسندگان

حوریه شیرازی

دانشجوی دکتری دانشگاه آزاد اسلامی واحد فردوس ایران

سیدمحمد جوادی مقدم

عضو هیئت علمی گروه کامپیوتر دانشگاه بزرگمهر قائنات قاین ایران

چکیده

استخراج داده های وب یکی از مهم ترین مسائلی است که می تواند مورد مطالعه با استفاده از ابزارهای مختلف علمی قرار گیرد که در محدوده گسترده ای از برنامه های کاربردی است. بسیاری از روش هایی که برای استخراج داده از وب سایت طراحی شده است برای حل مشکلات خاص و در حوزه های موقت به کار می رود. سیستم های استخراج داده های وب دسته وسیعی از نرم افزارهای برنامه های کاربردی برای استخراج داده های وب از منابع وب هستند. یک سیستم استخراج داده های وب معمولا در تعامل با یک منبع وب و عصاره داده های ذخیره شده می باشد. به عنوان مثال اگر منبع یک صفحه وب HTML باشد محتوای خارج شده می تواند از علائم در صفحه و همچنین متن کاملی از خود صفحه باشد و در نهایت داده های استخراج شده ممکن است پس از پردازش به ساختار فرمت مناسب تبدیل و ذخیره شود. یک روش مهم برای استخراج Text Mining استفاده از استخراج اطلاعات به زبان طبیعی است. استخراج اطلاعات IE تقطیر داده های ساختار یافته و یا دانش از متن بدون ساختار یافته که به وسیله شناسایی منابع برای موجودیت نام و روابط بین این موجودیت ها بدست می آید.همچنین ما در این بحث وارد یکی از شاخه های متن کاوی که هستی شناسی نام دارد می شویم به طوری که عناصر تشکیل دهنده هستی شناسی جمعیت خواص و روابط غیر طبقه بندی را شامل می شود. در این تحقیق انواع تکنیک ها و روش های استخراج داده وب و همچنین مزایا و معایب هرکدام بررسی می شوند.

کلیدواژه ها

استخراج داده، وب کاوی، الگوریتم تطبیق درخت، پوشش وب، هستی شناسی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.