بررسی روشهای برآورد میسان تشابه فیلدها در پایگاه داده های بسرگ
محل انتشار: همایش ملی علوم و مهندسی کامپیوتر
سال انتشار: 1391
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 782
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
NCCSE01_007
تاریخ نمایه سازی: 9 بهمن 1392
چکیده مقاله:
تشخیص رکورد تکراری، فرآیند شناسایی رکوردهای چندگانه و مختلف است که به یک شی یا نهاد منحصر به فرد از جهان واقعی اشاره می کند. تشخیص رکوردهای تکراری یکی از گام های اساسی در افزایش صحت و درستی داده هاست. اولین گام از فرآیند تشخیص تکرار، برآورد میزان شباهت فیلدهاست. الگوریتم های تطابق فیلد به روش های مبتنی بر کاراکتر، توکن و آوایی طبقه بندی شده است. در این مقاله الگوریتم هایی مانند TF-IDF, Q-grams, Jaro, Edit Distance و SotfTF-IDF برای برآورد میزان شباهت فیلدها معرفی شده است. سپس معیارهای ارزیابی که شامل Recall< Precision و F-measure می باشد بر روی الگوریتم ها انجام شده است. هر چه مقادیر معیارهای ارزیابی بالاتر باشد کارایی الگوریتم بهتر است. پس از مقایسه الگوریتم ها این نتیجه حاصل شده است که مقدار F-measure الگوریتم SoftTf-IDF بالاتر است. به این ترتیب بهترین کارایی را در بین الگوریتم ها داراست.
کلیدواژه ها:
نویسندگان
مینا قاری زاده بیرق
دانشجوی کارشناسی ارشد نرم افزار دانشگاه آزاد اسلامی واحد شبستر
محمدرضا درخشی
عضو هیئت علمی گروه کامپیوتر دانشگاه تبریز
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :