ارائه روشی برای یافتن اسناد مشابه براساس انتخاب بازه ای برای طول زیررشته ها در روش Shingling
سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 959
فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
EME02_493
تاریخ نمایه سازی: 14 شهریور 1393
چکیده مقاله:
یکی از مباحث مطرح در کاوش از مجموعه داده های عظیم، یافتن اسناد مشابه در مجموعه داده ای از اسناد میباشد. روشهای مختلفی برای یافتن اسناد مشابه موجود است. یکی از این روشها، روش Shingling میباشد. در روش Shingling هر سند به یک مجموعه تبدیل میشود. برای این منظور تمام زیررشته های موجود در هر سند انتخاب شده و درون یک مجموعه قرار میگیرند. در این روش طول زیررشته ها یک مقدار ثابت انتخاب میشود. سپس برای یافتن مقدار تشابه دو سند، تشابه جاکارد مجموعه های مربوط به آنها محاسبه میشود. یکی از مشکلاتی که در روش Shingling رایج میباشد، انتخاب مقداری مناسب برای طول زیررشته ها است. طول زیررشته ها معمولاً بر اساس طول اسناد انتخاب میشوند. در این مقاله روشی را برای یافتن اسناد مشابه بر اساس روش Shingling ارائه کردیم که به جای انتخاب یک مقدار برای طول زیررشته ها، از یک بازه استفاده میکند. یعنی برای رسیدن به دقت بالاتر، مقدار تشابه برای چندین طول زیررشته ها محاسبه میشود. در واقع هدف اصلی مقاله ارائه روشی برای تخمین دقیقتر تشابه بین دو سند است.
کلیدواژه ها:
نویسندگان
حسین ازگومی
کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد شبستر
معصومه قاسمی ماه سایه
کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد شبستر