بهبود سرعت تشخیص رکوردهای تکراری به وسیله کاهش تعداد مقایسه رکوردها با روشهای بلوک بندی

سال انتشار: 1391
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 661

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NCCSE01_011

تاریخ نمایه سازی: 9 بهمن 1392

چکیده مقاله:

پیوند رکوردها، یکی از مسائل مهمی است که برای تشخیص و حذف داده های تکراری مورد استفاده قرار می گیرد. مشکل حاصل از پیوند رکوردها هزینه بالای محاسباتی می باشد، زیرا تعداد زیادی از رکوردها باید مورد مقایسه قرار بگیرند. یکی دیگر از عواملی که می تواند منجر به افزایش هزینه محاسبه شود، هزینه مورد نیاز برای یک مقایسه است. با توجه به این که هر مقایسه رکورد نیاز به مقایسه فیلدهای متعددی دارد، بنابراین مقایسه رکورد هزینه زیادی می تواند داشته باشد. در این مقاله بهبود سرعت تشخیص تکرار با روش های موجود در بلوک بندی برای به حداقل رساندن تعداد مقایسه رکوردها مورد بررسی قرار گرفته است. با توجه به معیارهای ارزیابی تعریف شده F-measure هر یک از الگوریتم های مذکور محاسبه شده است. با توجه به نتایج به دست آمده، روش های bigram- indexing و Clustering and Canopy به طور قابل توجهی بهتر از بلوک بندی بر اساس کلید و SNM با پنجره ای با اندازه پویا می باشد.

نویسندگان

رعنا موسی زاده

دانشجوی کارشناسی ارشد نرم افزار دانشگاه آزاد اسلامی واحد شبستر

محمدرضا فیضی درخشی

عضو هیئت علمی گروه کامپیوتر دانشگاه تبریز

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • _ Panagiotis, G., Vassilios, S., "Duplicate Record Detection: A Survey", ...
  • Kopcke, Hanna., Rahm, Erhard., "Framevvorke for entity matching: A comparison", ...
  • Jebamalar Tamilselvi J., Saravanan V., "Token-based method of blocking records ...
  • Draisbach, Uwe ., Naumapn, Felix., "A Comparison and Generalization of ...
  • Patrick Lehti, Unsupervised Duplicate Detectionl Using Sample Non-Dup licates, Vom ...
  • Lee, Mong Li., Lu, Hongjun - , Ling, Tok Wang., ...
  • Draisbach, Uwe., Naumann, Felix! , "A Generalization of Blocking and ...
  • Baxter, Rohan., Christen, Peter., Churches, Tim., "A Comparison of Fast ...
  • I [9] LI, Baodong., dong, Yongquan., zhang, Yongxin., liu, Donglan., ...
  • Low, Wai Lup., Lee, Mong Li., Ling, Tok Wang -, ...
  • Gu, Lifang., Baxter, Rohan., "Adaptive Filtering for Efficient Record Linkage", ...
  • نمایش کامل مراجع