Implementation of a System for Removing Noisy Hyperlinks: A Semantic and Relatedness-Based Approach

سال انتشار: 1401
نوع سند: مقاله ژورنالی
زبان: انگلیسی
مشاهده: 42

فایل این مقاله در 17 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_TMCH-5-2_006

تاریخ نمایه سازی: 23 تیر 1404

چکیده مقاله:

As the amount of data on the web increases, the web structure graph, which represents the web as a graph, is also evolving. The structure of this graph has shifted from being based on content to being non-content-based. Additionally, spam data, such as noisy hyperlinks, in the web structure graph can negatively impact the speed and efficiency of information retrieval and link mining algorithms. Previous research in this field has concentrated on eliminating noisy hyperlinks through structural and string-based methods. However, these methods may mistakenly eliminate valuable links or fail to identify noisy hyperlinks in certain situations. In this paper, we begin by constructing a data collection of hyperlinks using an interactive crawler. We then examine the semantic and relatedness structure of the hyperlinks using semantic web tools such as the DBpedia ontology. The removal process of noisy hyperlinks is performed using a reasoner on the DBpedia ontology. Our experiments demonstrate the accuracy and effectiveness of semantic web technologies in eliminating noisy hyperlinks.

نویسندگان

K.

Department of Computer Engineering, Technical and Vocational University (TVU), Tehran, Iran

Elnaz

Master's Degree, Industrial Engineering, System Management and Productivity, Iran University of Science and Technology, Tehran, Iran

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Johnson, M. R., & Rodriguez, C. A. (۲۰۲۲). Unveiling Noisy ...
  • Park, S., & Kim, H. (۲۰۲۱). Exploring the Impact of ...
  • Chen, X., & Wang, Q. (۲۰۲۰). Semantic Enhancement of Hyperlink ...
  • Keller, M., & Nussbaumer, M. (۲۰۱۱, September). Beyond the web ...
  • Qi, X., Nie, L., & Davison, B. D. (۲۰۰۷). Measuring ...
  • Carvalho, -Da Costa, Chirita, A. L., De Moura, P.-A., Calado, ...
  • Chakrabarti, S. (۲۰۰۱). Integrating the document object model with hyperlinks ...
  • Pedersen, T., Patwardhan, S., & Michelizzi, J. (۲۰۰۴). WordNet:: Similarity: ...
  • Oguz, R. F., Oz, M., Olmezogullari, E., & Aktas, M. ...
  • Bechhofer, S., Harmelen, F. v., Hendler, J., Horrocks, I., McGuinness, ...
  • Solanki, S., Verma, S., & Chahar, K. (۲۰۲۲). A Comprehensive ...
  • Manning, C. D., Raghavan, P., & Schutze, H. (۲۰۱۲). Introduction ...
  • Robertson, S. (۲۰۰۴). Understanding inverse document frequency: on theoretical arguments ...
  • نمایش کامل مراجع