مقایسه روشهای تشخیص شباهت فیلدها با هدف اشکارسازی موجودیتهای تکراری در پایگاه داده

سولماز خاتمی; محمدرضا فیضی درخشی

مقایسه روشهای تشخیص شباهت فیلدها با هدف اشکارسازی موجودیتهای تکراری در پایگاه داده

محل انتشار: سومین همایش ملی مهندسی برق کامپیوتر و فناوری اطلاعات

سال انتشار: 1389

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,110

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/106214

شناسه ملی سند علمی:

CEIC03_219

تاریخ نمایه سازی: 4 آذر 1389

چکیده مقاله:

افزودن رکوردها ازمنابع مختلف به پایگاه داده مساله حادی است که اغلب باعث رکوردهای تکراری می شود رکوردهای تکراری کلید مشترک ندارند لیکن به یک موجودیت واحد اشاره دارند پایگاه داده هایی که این رکوردها را دربرمی گیرند معمولا خطاهایی را در بر میگیرند که مسئله تطابق رکوردهای تکراری را به یک مسئله پیچیده تبدیل می کنند این خطاها عبارتند از: خطاهای تایپی، اطلاعات ناقص، نادیده گرفتن فرمتهای استاندارد و یا هرترکیبی از عاملهای فوق دراین مقاله سعی داریم سه الگوریتم مطرح ، longest common string،smith-waterman،edit-distance را در زمینه فیلدهای تکراری برروی داده های واقعی که شامل اطلاعات املاک به زبان فارسی می باشند را مقایسه کنیم دراین مقاله از فیلد ادرس ملک برای انجام ازمایشات بهره گرفته ایم. در داده های موجود در پایگاه داده ما بیشتر اطلاعات ناقص وجوددارد که ما الگوریتم های موجود را برروی این دسته از خطاها بررسی می کنیم.

کلیدواژه ها:

میزان شباهت ، دقت ، رد غلط ، قبول غلط ، longest common string ، smith-waterman ، edit-distance

نویسندگان

سولماز خاتمی

دانشکده فنی دانشگاه آزاد اسلامی واحد زنجان

محمدرضا فیضی درخشی

گروه کامپیوتر دانشگاه تبریز

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Luis Gravano, Panagiotis G. Ipeirotis, Nick Koudas, and Divesh Srivastava. ...
Sudipto Guha, Nick Koudas, Amit Marathe, and Divesh _ _ ...
Howard B. Newcombe, James M.Kennedy, S.J. Axford, _ _ of ...
Ivan Peter Fellegi and Alan B. Sunter. A theory for ...
William E. Winkler. Methods for record linkage and ...
baysian networks. Technical Report Statistical Research Report Series RRS2002/05, US. ...

نمایش کامل مراجع