کشف سرقت ادبی در متون فارسی با کمک الگوریتم SimHash
- سال انتشار: 1391
- محل انتشار: یازدهمین کنفرانس سراسری سیستم های هوشمند
- کد COI اختصاصی: ICS11_132
- زبان مقاله: فارسی
- تعداد مشاهده: 2049
نویسندگان
دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران
دانشگاه صنعتی خواجه نصیرالدین طوسی
دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران
چکیده
دسترسی آسان به وب، پایگاه داده های بزرگ و به طور کلی ارتباطات از راه دور باعث شده که سرقت ادبی به یک مشکل بزرگ برای ناشران، محققان و موسسات آموزشی تبدیل شود. در زبان انگلیسی این مسئله به طور جدی مورد اهمیت بوده و ابزارهای قدرتمندی برای جلوگیری از این مسئله تهیه شده است، اما متاسفانهتاکنون در این باره به صورت جدی در زبان فارسی به آن پرداخته نشده است. این مقاله به بررسی سرقت ادبی در متون فارسی بر اساس الگوریتم simhash می پردازد. الگوریتم simhash از دسته الگوریتم های اثر انگشت است. ویژگی اصلی الگوریتم های اثر انگشت، سرعت بالای آنها در کشف سرقت ادبی است. قبل از بکارگیری الگوریتم، می بایست عملیات پیش پردازش شامل: حذف تگ های نسخه اینترنتی مقاله، جداسازی کلمات، یکسان سازی، جایگزینی اعداد, حذف واژه های عمومیو ریشه یابی روی متون صورت گیرد. در این مقاله simhash و shingling بررسی و با یکدیگر مقایسه می شوند. پیاده سازی این دو الگوریتم روی یک مجموعه بزرگی از مقالات ثبت شده در پایگاه داده نور، نتایج قابل قبولی را نشان می دهدکلیدواژه ها
سرقت ادبی، اثر انگشت، فاصله همینگ، shingling، simHashمقالات مرتبط جدید
- سودآوری مشتریان در خردهفروشی قطعات یدکی ماشین آلات راهسازی با رویکرد یادگیری ماشین
- ارائه روشی کارآمد جهت شناسایی کودکان نیازمند به پیوند مغز استخوان با استفاده از ترکیب طبقه بند ماشین بردار پشتیبان و الگوریتم بهینه سازی فاخته
- استخراج بهینه پارامترهای تاثیر گذار الگوریتم بهینه سازی بوفالوی آفریقایی با هدف استخراج ویژگی های مهم به منظور افزایش کارایی طبقه بندی داده ها
- ارائه روشی کارآمد برای بهبود عملکرد الگوریتم بهینه سازی کلاغ سیاه به منظور افزایش صحت خوشه بندی داده ها
- استفاده از الگوریتم باور بیزین در لایه کاملا متصل شبکه عصبی کانولوشن با هدف افزایش دقت تشخیص تصاویر
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.