روشی جدید در یافتن اسناد یکسان در وب

سال انتشار: 1393
محل انتشار: همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات
کد COI اختصاصی: CSITM01_439
زبان مقاله: فارسی
تعداد مشاهده: 794

دانلود فایل این مقاله

نویسندگان

فردین ابدالی محمدی

استادیار دانشگاه رازی کرمانشاه

نصرالدین نیازی

دانشجوی کارشناسی ارشد

عبدالحسین فتحی

استادیار دانشگاه رازی کرمانشاه

چکیده

با رشد و گسترش روزافزون شبکه اینترنت و تولید اسناد و فایل های تکراری یا مشابه، سیستم های ذخیره سازی داده ها با مشکلاتی روبرو شدهاند. در راستای حل این مشکلات، الگوریتمهای زیادی برای تشخیص سندهای تکراری به وجود آمده اند که با حذف سندهای اضافی، تنها یک نسخه ی منحصربه فرد را نگهداری میکنند. با این عمل، مقدار فضای مورد نیاز برای ذخیرهسازی کاهش می یابد. همچنین، نقل و انتقال سندهای غیرتکراری در بستر اینترنت به پهنای باند کمتری نیاز خواهد داشت. در این مقاله سوالات جدیدی در مورد روش محاسبه ی مفهومی به نام Containment Document پیش میآید که با پاسخ به آنها و شبیه سازی الگوریتمهای پیشنهادی، اثبات خواهیم کرد که میتوان در مدت زمانبسیار کمتری تکراری بودن فایل ها و سندهای موجود در شبکه جهانی وب را نشان داد. به کمک این روش سندهای مشابه در یک خوشه قرار داده میشوند و در مواردی از جمله فیلترکردن نتایج به دست آمده از موتورهای جستجو، به روزرسانی گسترده ی صفحات وب توزیع شده و ... از آن استفاده می شود.

کلیدواژه ها

شباهت اسناد، شینگل، ابر شینگل، اسناد زیر مجموعه

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.