یافتن اسنادمشابه باحذف کاراکترهای مکرر

سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 986

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

BPJ01_492

تاریخ نمایه سازی: 29 دی 1392

چکیده مقاله:

یکی ازمباحث مطرح درکاوش ازمجموعه داده های عظیم یافتن اسنادمشابه می باشد سه روش کلی برای یافتن اسنادمشابه وجود داردکه مکمل یکدیگر می باشند درروش Shingling هرسند به یک مجموعه تبدیل میشود و تشابه بین اسنادبه کمک تشابه بین مجموعه های مرتبط با آنها محاسبه میشود مجموعه های حاصل شده حجم بالایی دارند بنابراین درروش Minhashingمجموعه ها به گونه ای فشرده میشود که بازهم بتوان تشابه میان اسناد را ازنمونه فشرده شده ی آنهاتخمین زد برای یافتن تمامی اسنادمشابه مقایسه ی همه جفت اسناد موجود زمان برمی باشد بنابراین روش LSH جفت اسنادی که بااحتمال بیشتری مشابه هستند را انتخاب و فقط تشابه بین آنها را محاسبه کند هرسه روش تمامی کاراکترهای موجود دراسناد را بررسی می کنند اما ممکن است اسناد دارای کاراکترهایی باشند که تاثیر چندان یدرتشابه بین اسنادنداشته باشند به عنوان نمونه میتوان به مجموعه کاراکترهایی اشاره کرد که درتمامی یابیشتر اسناد تکرار شده باشند این کاراکترها را مکرر می نامیم مادراین مقاله باحذف کاراکترهای مکرر اسنادمشابه را روی زمان کمتری وحتی گاهی باتخمین دقیقتری یافتیم درواقع هدف اصلی مقاله ارایه روشی برای یافتن اسنادمشابه با زمان کمترمی باشد

کلیدواژه ها:

اسنادمشابه/روش Shingling /روش Minhashing ، روش LSH ، کاراکترهای مکرر

نویسندگان

حسین ازگومی

کارشناسی ارشدکامپیوتر

علی مهجور

دکتری تخصصی

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :