پیاده سازی و بررسی نقش کلمات کم تکرار و موازی سازی در کشف اسناد تکراری

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 776

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICESCON01_0289

تاریخ نمایه سازی: 25 بهمن 1394

چکیده مقاله:

با توجه به گستردگی بحث اسناد تکراری تعاریف مختلف بسیاری وجود دارد که دیگران استفاده کرده اند، و هر یک بسته به مورد استفاده خاص بوده و دارای انگیزه های متفاوتی هستند . به طور کلی، اسناد مشابه اسنادی هستند که فقط کمی در محتوا متفاوت می باشند. با توجه به این تعریف جامعمی توان انواع تعاریف را برای اسناد مشابه در نظر گرفت . بعنوان نمونه سند هایی که فقط در ساختار ظاهری با هم تفاوت دارند و در محتوی اصلیسند یکسان می باشند . یا در حالت دیگر ، اسنادی که به هم ریخته شده اند و اصطلاحا با ویرایش متون در نگاه اول سند تکراری به نظر نمی آید . یا در حالت دیگر ، گاهی اوقات با تغییر عنوان های یک متن از نسخه اول کپی برداری صورت میگیرد. یا در حالت دیگر جزئیات کم اهمیت سند حذف شده ولی محتوای اصلی سند همچنان وجود دارد . بخش عمده ای از کلمات در هر سند کلمات اضافی و اغلب کم معنی و کم ارتباط با محتوای سند هستند از این رو روش پیشنهادی ما عملکرد بهتری در بحث حافظه و سرعت خواهد داشت . عملیاتی که پس از خواندن اطلاعات صورت می گیردشامل شمارش کل کلمات یک سند ، تعداد کلمات کم تکرار آن و همچنین تعداد لغات منحصر به فرد یا همان یکتا می باشد سپس عملیات مقایسه بصورت موازی صورت می گیرد

نویسندگان

جواد گلی

دانشجوی کارشناسی ارشد

حسن نادری

استاد راهنما

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • A. Karpathy.; G .Toderici, ; Shetty, S.; T. Leung., ; ...
  • M .Potthast, . M .Hagen, . T .Gollub, ; M ...
  • P , Martin, December 201 1, Technologies for Reusing Text ...
  • J.G. Conrad and C.P. Schriber., July 2004, Constructing a text ...
  • G.S. Manku, A. Jain, and A. Das Sarma. Detecting near-duplicates ...
  • نمایش کامل مراجع