کشف سرقت ادبی در متون فارسی با کمک الگوریتم SimHash

  • سال انتشار: 1391
  • محل انتشار: یازدهمین کنفرانس سراسری سیستم های هوشمند
  • کد COI اختصاصی: ICS11_132
  • زبان مقاله: فارسی
  • تعداد مشاهده: 2049
دانلود فایل این مقاله

نویسندگان

کبری کامران

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

علی احمدی

دانشگاه صنعتی خواجه نصیرالدین طوسی

مهران محسن زاده

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

چکیده

دسترسی آسان به وب، پایگاه داده های بزرگ و به طور کلی ارتباطات از راه دور باعث شده که سرقت ادبی به یک مشکل بزرگ برای ناشران، محققان و موسسات آموزشی تبدیل شود. در زبان انگلیسی این مسئله به طور جدی مورد اهمیت بوده و ابزارهای قدرتمندی برای جلوگیری از این مسئله تهیه شده است، اما متاسفانهتاکنون در این باره به صورت جدی در زبان فارسی به آن پرداخته نشده است. این مقاله به بررسی سرقت ادبی در متون فارسی بر اساس الگوریتم simhash می پردازد. الگوریتم simhash از دسته الگوریتم های اثر انگشت است. ویژگی اصلی الگوریتم های اثر انگشت، سرعت بالای آنها در کشف سرقت ادبی است. قبل از بکارگیری الگوریتم، می بایست عملیات پیش پردازش شامل: حذف تگ های نسخه اینترنتی مقاله، جداسازی کلمات، یکسان سازی، جایگزینی اعداد, حذف واژه های عمومیو ریشه یابی روی متون صورت گیرد. در این مقاله simhash و shingling بررسی و با یکدیگر مقایسه می شوند. پیاده سازی این دو الگوریتم روی یک مجموعه بزرگی از مقالات ثبت شده در پایگاه داده نور، نتایج قابل قبولی را نشان می دهد

کلیدواژه ها

سرقت ادبی، اثر انگشت، فاصله همینگ، shingling، simHash

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.