Employing a novel content-based similarity measure for a machine learning-driven focused crawler

The volume of the World Wide Web is growing rapidly, reaching a point where governing data is challenging. Search engines are used to collect data across the web for users. Web crawlers as the major part of search engines are then used to retrieve relevant data on the web according to the user requests. Accordingly, a focused crawler considers a predefined subject and retrieves corresponding relevant pages. In this paper, we propose an efficient focused web crawling approach, which uses a combination of a content-based similarity measure and a Naive Bayes learning classifier in order to find relevant pages to a particular subject. Our first experimental studies show satisfactory improvements where accuracy and recall are increased by 4% and 1% respectively.

کلیدواژه ها:

Focused crawler ، Web crawler ، Naive Bayes classification ، Relevant page ، TF-IDF criteria

نویسندگان

Atiye Jabalameli

Department of Electrical and Computer Engineering, University of Kashan, Kashan, Iran

S. Mehdi Vahidipour

Department of Electrical and Computer Engineering, University of Kashan, Kashan, Iran

Mohammad Mahdi Mohammadi

Department of Computer Engineering, Amirkabir University of Technology, Tehran, Iran

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > یادگیری ماشین

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1011676

شناسه ملی سند علمی:

CEPS06_121

تاریخ نمایه سازی: 9 اردیبهشت 1399

نحوه استناد به مقاله:

در صورتی که می خواهید در اثر پژوهشی خود به این مقاله ارجاع دهید، به سادگی می توانید از عبارت زیر در بخش منابع و مراجع استفاده نمایید:

Jabalameli, Atiye and Vahidipour, S. Mehdi and Mohammadi, Mohammad Mahdi,1398,Employing a novel content-based similarity measure for a machine learning-driven focused crawler,6th National Conference on Applied Research in Computer Engineering and Information Technology,Tehran,https://civilica.com/doc/1011676

در داخل متن نیز هر جا که به عبارت و یا دستاوردی از این مقاله اشاره شود پس از ذکر مطلب، در داخل پارانتز، مشخصات زیر نوشته می شود.
برای بار اول: (1398, Jabalameli, Atiye؛ S. Mehdi Vahidipour and Mohammad Mahdi Mohammadi)
برای بار دوم به بعد: (1398, Jabalameli؛ Vahidipour and Mohammadi)
برای آشنایی کامل با نحوه مرجع نویسی لطفا بخش راهنمای سیویلیکا (مرجع دهی) را ملاحظه نمایید.

علم سنجی و رتبه بندی مقاله

مشخصات مرکز تولید کننده این مقاله به صورت زیر است:

رتبه علمی دانشگاه کاشان

نوع مرکز: دانشگاه دولتی

تعداد مقالات: 10,786

در بخش علم سنجی پایگاه سیویلیکا می توانید رتبه بندی علمی مراکز دانشگاهی و پژوهشی کشور را بر اساس آمار مقالات نمایه شده مشاهده نمایید.

مقالات مرتبط جدید