DOSTE: Document Similarity Matching considering Informative Name Entities
محل انتشار: مجله هوش مصنوعی و داده کاوی، دوره: 13، شماره: 1
سال انتشار: 1404
نوع سند: مقاله ژورنالی
زبان: انگلیسی
مشاهده: 39
فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JADM-13-1_008
تاریخ نمایه سازی: 12 شهریور 1404
چکیده مقاله:
Document similarity matching is essential for efficient text retrieval, plagiarism detection, and content analysis. Existing studies in this field can be categorized into three approaches: statistical analysis, deep learning, and hybrid approaches. However, to the best of our knowledge, none have incorporated the importance of named entities into their methodologies. In this paper, we propose DOSTE, a method that first extracts name entities and then utilizes them to enhance document similarity matching through statistical and graph-based analysis. Empirical results indicate that DOSTE achieves better results by emphasizing named entities, resulting in an average improvement of ۹% in the average recall metric compared to baseline methods. Also, DOSTE unlike LLM-based approaches, does not require extensive GPU resources. Additionally, non-empirical interpretations of the results indicate that DOSTE is particularly effective in identifying similarity in short documents and complex document comparisons.
کلیدواژه ها:
نویسندگان
Milad Allhgholi
School of Computer engineering, Iran University of Science and Technology, Tehran, Iran.
Hossein Rahmani
School of Computer engineering, Iran University of Science and Technology, Tehran, Iran.
Amirhossein Derakhshan
School of Computer engineering, Iran University of Science and Technology, Tehran, Iran.
Saman Mohammadi Raouf
School of Computer engineering, Iran University of Science and Technology, Tehran, Iran.
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :