کشف سرقت ادبی در متون فارسی به کمک الگوریتمهای اثرانگشت

سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,263

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICEE21_785

تاریخ نمایه سازی: 27 مرداد 1392

چکیده مقاله:

سرقتادبی یکی از معضلات بزرگ در عصر ارتباطات است. در خیلی لز زبانها از جمله زبان انگلیسی این مساله به طور جدی مورد اهمیت بوده و ابزارهای قدرتمندی برای جلوگیری از این مساله تهیه شده است، اما متاسفانه تاکنون ابزاری برای کشف این مساله در زبان فارسیطراحی نشده است. این مقاله به کشف سرقت ادبی در متون فارسی براساس الگوریتمهای اثرانگشت میپردازد. الگوریتمهای اثرانگشت به خاطر ایجاد ویژگیهای فشرده و صرفا مقایسه این ویژگیها بین اسناد اصل و مشکوک، سرعت بالایی در کشف سرقت ادبی دارند. به منظور افزایش دقت و سرعت کشف سرقت ادبی، میبایست قبل از بکارگیری الگوریتم عملیات پیشپردازش شامل: حذف تگهایhtmlنسخه اینترنتی مقاله، جداسازی کلمات، یکسانسازی، جایگزینی اعداد، حذف واژههای عمومی، و ریشهیابی روی متن صورت گیرد. دراین مقاله چهار الگوریتمRareChunk و SPEX ،Winnowing ،SimHashبررسی و از نظر کارایی در زبان فارسی با یکدیگر مقایسه میشوند. پیادهسازی این الگوریتم- ها روی سیصد مقالات ثبت شده در پایگاه داده نور با موضوعات هنر، تاریخ و روانشناسی، نتایج قابل قبولی را نشان میدهد.

نویسندگان

کبری کامران

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

علی احمدی

دانشگاه صنعتی خواجه نصیرالدین طوسی