کشف سرقت ادبی در متون فارسی با کمک الگوریتم SimHash
محل انتشار: یازدهمین کنفرانس سراسری سیستم های هوشمند
سال انتشار: 1391
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,946
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICS11_132
تاریخ نمایه سازی: 14 مهر 1392
چکیده مقاله:
دسترسی آسان به وب، پایگاه داده های بزرگ و به طور کلی ارتباطات از راه دور باعث شده که سرقت ادبی به یک مشکل بزرگ برای ناشران، محققان و موسسات آموزشی تبدیل شود. در زبان انگلیسی این مسئله به طور جدی مورد اهمیت بوده و ابزارهای قدرتمندی برای جلوگیری از این مسئله تهیه شده است، اما متاسفانهتاکنون در این باره به صورت جدی در زبان فارسی به آن پرداخته نشده است. این مقاله به بررسی سرقت ادبی در متون فارسی بر اساس الگوریتم simhash می پردازد. الگوریتم simhash از دسته الگوریتم های اثر انگشت است. ویژگی اصلی الگوریتم های اثر انگشت، سرعت بالای آنها در کشف سرقت ادبی است. قبل از بکارگیری الگوریتم، می بایست عملیات پیش پردازش شامل: حذف تگ های نسخه اینترنتی مقاله، جداسازی کلمات، یکسان سازی، جایگزینی اعداد, حذف واژه های عمومیو ریشه یابی روی متون صورت گیرد. در این مقاله simhash و shingling بررسی و با یکدیگر مقایسه می شوند. پیاده سازی این دو الگوریتم روی یک مجموعه بزرگی از مقالات ثبت شده در پایگاه داده نور، نتایج قابل قبولی را نشان می دهد
کلیدواژه ها:
نویسندگان
کبری کامران
دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران
علی احمدی
دانشگاه صنعتی خواجه نصیرالدین طوسی
مهران محسن زاده
دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :