کشف سرقت ادبی در متون فارسی با کمک الگوریتم SimHash

کبری کامران; علی احمدی; مهران محسن زاده

کشف سرقت ادبی در متون فارسی با کمک الگوریتم SimHash

محل انتشار: یازدهمین کنفرانس سراسری سیستم های هوشمند

سال انتشار: 1391

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 2,113

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/214714

شناسه ملی سند علمی:

ICS11_132

تاریخ نمایه سازی: 14 مهر 1392

چکیده مقاله:

دسترسی آسان به وب، پایگاه داده های بزرگ و به طور کلی ارتباطات از راه دور باعث شده که سرقت ادبی به یک مشکل بزرگ برای ناشران، محققان و موسسات آموزشی تبدیل شود. در زبان انگلیسی این مسئله به طور جدی مورد اهمیت بوده و ابزارهای قدرتمندی برای جلوگیری از این مسئله تهیه شده است، اما متاسفانهتاکنون در این باره به صورت جدی در زبان فارسی به آن پرداخته نشده است. این مقاله به بررسی سرقت ادبی در متون فارسی بر اساس الگوریتم simhash می پردازد. الگوریتم simhash از دسته الگوریتم های اثر انگشت است. ویژگی اصلی الگوریتم های اثر انگشت، سرعت بالای آنها در کشف سرقت ادبی است. قبل از بکارگیری الگوریتم، می بایست عملیات پیش پردازش شامل: حذف تگ های نسخه اینترنتی مقاله، جداسازی کلمات، یکسان سازی، جایگزینی اعداد, حذف واژه های عمومیو ریشه یابی روی متون صورت گیرد. در این مقاله simhash و shingling بررسی و با یکدیگر مقایسه می شوند. پیاده سازی این دو الگوریتم روی یک مجموعه بزرگی از مقالات ثبت شده در پایگاه داده نور، نتایج قابل قبولی را نشان می دهد

کلیدواژه ها:

سرقت ادبی ، اثر انگشت ، فاصله همینگ ، shingling ، simHash

نویسندگان

کبری کامران

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

علی احمدی

دانشگاه صنعتی خواجه نصیرالدین طوسی

مهران محسن زاده

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

ایران پور باکه"بررسی مشکلات تعیین حدود جمله و کلمه " ...
محسن مشکی، مرتضی آنالویی "استخراج بردارهای همبستگی واژه‌های فارسی در ...
MR. Davarpanah, M.sanji, M.Aramideh "Farsi Lexical Analaysis ر435-44 and StopWord ...
Monostori, K., Finkel, R. A., Zaslavsky, A., Hodasz, G., and ...
Maurer, H., F. Kappe, B. Zaka. "Plagiarism - A Survey". ...
Zdenek Ceska , Chris Fox "The Influence of Text Preprocessing ...
Manber, U." Finding similar files in a large file system". ...
_ _ _ _ of documents on the web". In ...
Hoad, T. C. and Zobel, " J. Methods for Identifying ...
Gurmeet Singh Manku , Arvind Jain , Anish Das Sarma ...
Brder.. A." On the resemblance and containment of documents". In ...

نمایش کامل مراجع