ارائه روش جدید برای پیش بینی موضوع صفحات وب در خزشگرهای کانونی

  • سال انتشار: 1393
  • محل انتشار: همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات
  • کد COI اختصاصی: CSITM01_424
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1594
دانلود فایل این مقاله

نویسندگان

رامین دلیر

دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین(ع)

محمدرضا حسنی آهنگر

استادیار گروه کامپیوتر دانشگاه جامع امام حسین (ع)

چکیده

اینترنت، در سالهای اخیر روند سریع و روبه رشدی را طی میکند و تعداد صفحات وب نیز به طور روز افزون در حال افزایش استو این رشد نمایی، دستیابی به اطلاعات مرتبط را روز بهروز مشکل تر نموده است. در طی این سالها همواره مسئله کلیدی درطراحی خزشگرهای کانونی، چگونگی تعیین ارتباط پیوندهای بازدید نشده با موضوع جستجو بوده است. پیش بینی موثر موضوعصفحه وب، از دانلود و مشاهده صفحات غیر مرتبط ممانعت می کند. در این مقاله، یک روش جدید مبتنی بر یادگیری برای بهبود پیش بینی موضوع پیوندها در خزشگرهای کانونی، پیشنهاد شده است. برای این مطالعه، از ابزار دسته بندی بیز ساده و CRT برای دسته بندی و پیش بینی موضوع استفاده شده است. نتایج این تحقیق نشان داد که رویکرد ما در انتخاب چهار ویژگی کلمات پیوند، لنگر، عنوان و متن صفحه پدر کارایی بهتری دارد؛ همچنین عنوان صفحه پدر ویژگی مهمی در پیش بینی موضوع پیوند است که با ویژگی های کلمات پیوند و لنگر و عنوان صفحه پدر و متن صفحه پدر با ابزار دسته بندی CRT، دقت 0.894 و فراخوانی 0.894 حاصل شده است.

کلیدواژه ها

خزشگر کانونی، داده کاوی، پیش بینی موضوع

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.