Evaluating Semantic and Syntactic Similarity forPlagiarism Detection in English Using NLP

  • سال انتشار: 1403
  • محل انتشار: دومین کنفرانس ملی تحول دیجیتال و سیستم های هوشمند
  • کد COI اختصاصی: DTIS02_039
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 130
دانلود فایل این مقاله

نویسندگان

Mahsa Khajeh Zadeh

Meisam Zaifar

چکیده

Manually detecting plagiarism in the huge volume of published documents is not feasible.Existing automatic plagiarism detection tools mostly focus on lexical matching, missing semantic andsyntactic aspects of plagiarism. A challenging area of plagiarism detection is the semantic area which is thecombination of lexical and syntactic conversions. NLP can be exploited to analyze the semantic similarityand detect document plagiarism. Hybrid methods, made by a combination of different kinds of algorithms,have proven to be more comprehensive. In this study an existing hybrid similarity algorithm is improvedand a plagiarism detection method and plagiarism score is defined to compare document plagiarism levels.The results on MASRP dataset show a few percent improvement in all similarity evaluation criteria,including accuracy, precision, recall and F-measure. Moreover, the document plagiarism score shows agood reflection of the amount of plagiarism detected in the documents. Our tests on CPSA corpus verifythat the defined plagiarism score correlates to the level of plagiarism in the suspicious document.

کلیدواژه ها

Semantic Similarity, Syntactic Similarity, Plagiarism, NLP

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.