پیاده سازی روشی موازی جهت کشف نسخه های تکراری اسناد

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 544

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SENACONF02_028

تاریخ نمایه سازی: 30 آبان 1394

چکیده مقاله:

با توجه به گستردگی بحث اسناد تکراری تعاریف مختلف بسیاری وجود دارد که دیگران استفاده کرده اند، و هر یک بسته به مورد استفاده خاص بوده و دارای انگیزه های متفاوتی هستند . به طور کلی، اسناد مشابه اسنادی هستند که فقط کمی در محتوا متفاوت می باشند . با توجه به این تعریف جامع می توان انواع تعاریف را برای اسناد مشابه در نظر گرفت . بعنوان نمونه سند هایی که فقط در ساختار ظاهری با هم تفاوت دارند و در محتوی اصلی سند یکسان می باشند . یا در حالت دیگر ، اسنادی که به هم ریخته شده اند و اصطلاحا با ویرایش متون در نگاه اول سند تکراری به نظر نمی آید . یا در حالت دیگر ، گاهی اوقات با تغییر عنوان های یک متن از نسخه اول کپی برداری صورت میگیرد. یا در حالت دیگر جزئیات کم اهمیت سند حذف شده ولی محتوای اصلی سند همچنان وجود دارد . بخش عمده ای از کلمات در هر سند کلمات اضافی و اغلب کم معنی و کم ارتباط با محتوای سند هستند از این رو روش پیشنهادی عملکرد بهتری در بحث حافظه و سرعت خواهد داشت . عملیاتی که پس از خواندن اطلاعات صورت می گیرد شامل شمارش کل کلمات یک سند ، تعداد کلمات کم تکرار آن و همچنین تعداد لغات منحصر به فرد یا همان یکتا می باشد سپس عملیات مقایسه بصورت موازی صورت می گیرد .

نویسندگان

جواد گلی

دانشجو

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Karpathy, A.; Toderici, G.; Shetty, S.; Leung, T.; Sukthankar, R.; ...
  • Potthast, M.; Hagen, M.; Gollub, T.; Tippmann, M.; Kiesel, J.; ...
  • Marftin Potthast.Tech nologies for Reusing Text from the Web. Dissertation, ...
  • Haveliwala . T.H, Gionis. A, Indyk. P. Scalable techniques for ...
  • - Broder . A, Charikar. M, Frieze. A, and Mitzenmache. ...
  • stein. B and Sven Meyer zu Eissen. Intrinsic Plagiarism Analysis ...
  • نمایش کامل مراجع