تشخیص سرقت علمی در متون بازنویسی شده براساس شاخص گذاری با استفاده از شبكه واژگان فارسی

  • سال انتشار: 1399
  • محل انتشار: چهارمین کنفرانس بین المللی تحقیقات بین رشته ای در مهندسی برق، کامپیوتر، مکانیک و مکاترونیک در ایران و جهان اسلام
  • کد COI اختصاصی: ECMM04_045
  • زبان مقاله: فارسی
  • تعداد مشاهده: 469
دانلود فایل این مقاله

نویسندگان

میلاد سرانجام

دانشکده مهندسی کامپیوتر و فناوری اطلاعات، واحد قزوین، دانشگاه آزاد اسلامی، قزوین، ایران

وحید رستمی

دانشکده مهندسی کامپیوتر و فناوری اطلاعات، واحد قزوین، دانشگاه آزاد اسلامی، قزوین، ایران

چکیده

گسترش روز افزون اینترنت، دسترسی به ایده ها، مقالات، مستندات و دست نوشته های دیگران آسان تر گردیدهاین امر موجب تبادل سریع اطلاعات و در مقابل، سبب آسان تر شدن سرقت ادبی یا Plagiarism شدهاست. عموماً روش های اندازه گیری تشابه متن مبتنی بر بردار تکرار واژه، روابط معنایی بین کلمات را نادیدهمی گیرند، که در واقع مانعی برای محاسبه شباهت متن، در ابعاد بالا و پراکندگی بیشتر بردار سند می باشد. برایغلبه بر این مشکلات، از تجزیه مقادیر منفرد (SVD) برای کاهش ابعاد و حذف نویزهای مدل ارائه متن استفادهمی شود. مقدار بهینه مقادیر منفرد محاسبه می شود و ارتباط معنایی بین کلمات را می توان در فضای معناییساخته شده محاسبه کرد. در این پژوهش یک الگوریتم ساخت شاخص معکوس (TF-IDF) و تعاریف مشابه بینبردارها برای محاسبه شباهت بین دو سند در سطح معنایی پیشنهاد شده است. جهت ارزیابی کارائی الگوریتم، ازمجموعه داده مسابقات plagdet2016 مرکز تحقیقات مخابرات ایران استفاده شده است. در ادامه، نتایج تجربیدر مورد مجموعه ی متنی مورد ارزیابی شده نشان می دهد که الگوریتم پیشنهادی معیارهای ارزیابی کارایی مانند را افزایش می دهد.

کلیدواژه ها

سرقت متن، ارتباط معنایی، تجزیه مقادیر منفرد، اندازه گیری تشابه متن، LSA

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.