بررسی مدل های احتمالاتی تطبیق رکورد در پایگاه داده های بزرگ
- سال انتشار: 1392
- محل انتشار: همایش ملی کاربرد سیستم های هوشمند (محاسبات نرم) در علوم و صنایع
- کد COI اختصاصی: AISST01_136
- زبان مقاله: فارسی
- تعداد مشاهده: 1439
نویسندگان
دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد شبستر
دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد شبستر
عضو هیئت علمی گروه کامپیوتر دانشگاه تبریز
چکیده
تشخیص رکورد تکراری، فرآیندشناسایی رکوردهای چند گانه و مختلف است که به یک شی یا نهاد منحصر به فرد از جهان واقعی اشاره می کند. با تشخیص رکورد تکراری، کیفیت داده ها افزایش می یابد. برای شناسایی تکرار، باید شباهت رکوردها محاسبه شود . الگوریتم ها تطبیق رکورد شامل روش های احتمالاتی، یادگیری بدون نظارت، یادگیری نظارت شده و غیره می باشد. هدف این مقاله بررسی جدیدترین رویکردهای مبتنی بر مدل های احتمالاتی تطبیق است. مدل های احتمالاتی تطبیق شامل مدلهای تصمیم گیری بیز با حداقل خطا و حداقل هزینه، مدل Reject Region و مدل Fellegi-Sunter می باشد که در این مقاله مدل ها معرفی شده است. سپس معیارهای ارزیابی که شامل Precision و Recall و F-measure می باشد بر روی الگوریتم ها انجام شده است. هر چه معیارهای ارزیابی بالاتر باشد کارایی الگوریتم بهتر است. نتایج مقایسه الگوریتم ها نشان میدهد که مقدار F-measure مدل Fellegi-Sunter با معیار فاصله TF-IDF+Jaro بیشتر است، بنابراین عملکرد بهتری را در بین مدل ها دارا می باشد.کلیدواژه ها
تشخیص رکورد تکراری، مدل احتمالاتی تطبیق رکورد، بردار مقایسه رکورد، معیارهای ارزیابیمقالات مرتبط جدید
- بررسی نقش و کاربردهای هوش مصنوعی در رشته مترجمی زبان انگلیسی
- چارچوب یکپارچه مبتنی بر یادگیری عمیق برای تشخیص و مقابله با حملات سایبری در شبکه های صنعتی اینترنت اشیاء
- توسعه سیستم توصیه گر هوشمند برای بهینه سازی مصرف انرژی در شبکه های انرژی هوشمند با استفاده از الگوریتم های یادگیری تقویتی
- طراحی معماری سیستم های نهفته خودترمیم شونده برای کاربردهای بلادرنگ در سیستم های حمل و نقل هوشمند
- طراحی و پیاده سازی سیستم امنیتی یکپارچه برای اینترنت اشیاء صنعتی مبتنی بر محاسبات لبه در صنعت ۴.۰
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.