ارائه یک روش مبتنی بر یادگیری برای تخمین و ارزیابی کیفیت مجموعه داده های پیوندی

سال انتشار: 1399
محل انتشار: دوفصلنامه فناوری اطلاعات و ارتباطات ایران، دوره: 10، شماره: 37
کد COI اختصاصی: JR_AICTI-10-37_007
زبان مقاله: فارسی
تعداد مشاهده: 38

نویسندگان

عضو هیات علمی

چکیده

هدف اصلی داده های پیوندی، تحقق وب معنایی و استخراج دانش از طریق پیوند دادن داده های موجود روی وب می باشد. یکی از موانع دستیابی به این هدف، وجود مشکلات و خطاها در داده های منتشر شده است که باعث ایجاد پیوندهای نادرست و درنتیجه استنتاج های نامعتبر می گردد. با توجه به اینکه کیفیت داده ها تاثیر مستقیم بر موفقیت پروژه داده های پیوندی و تحقق وب معنایی دارد، بهتر است تا کیفیت هریک از مجموعه های داده در مراحل اولیه انتشار ارزیابی شود. در این مقاله، یک روش مبتنی بر یادگیری برای ارزیابی مجموعه داده های پیوندی ارائه می شود. برای این منظور، ابتدا مدل کیفیت مبنا انتخاب شده و ویژگی های کیفی مدل به حوزه مورد مطالعه (که دراین مقاله حوزه داده های پیوندی است) نگاشت داده می شود. سپس، براساس نگاشت انجام شده، ویژگی های کیفی مهم در حوزه مورد مطالعه شناسایی شده و با تعریف ویژگی های فرعی، بصورت دقیق توصیف می شوند. در مرحله سوم، براساس مطالعات گذشته، سنجه های اندازه گیری هریک از ویژگی های فرعی استخراج شده و یا تعریف می شوند. سپس، سنجه های اندازه گیری باید براساس نوع داده ها در دامنه مورد مطالعه پیاده سازی شوند. در مرحله بعد، با انتخاب چند مجموعه داده، مقادیر سنجه ها بصورت خودکار روی مجموعه داده های مورد آزمایش، محاسبه می شوند. برای استفاده از روشهای یادگیری باناظر، لازم است کیفیت داد ها بصورت تجربی توسط افراد خبره ارزیابی شود. در این مرحله، میزان دقت هریک از مجموعه های داده توسط افراد خبره ارزیابی می شود و برمبنای آزمون های مطالعه همبستگی، رابطه بین مقادیر کمی سنجه های پیشنهادی و میزان دقت داده ها مورد بررسی قرار می گیرد. سپس با بهره گیری از روش های یادگیری، سنجه های موثر در ارزیابی دقت که قابلیت پیش بینی قابل قبولی دارند، شناسایی می شوند. در پایان، با بهره گیری از روش های یادگیری، یک مدل پیش بینی کیفیت برمبنای سنجه های پیشنهادی ارائه شده است. نتایج ارزیابی ها نشان داد که روش پیشنهادی علاوه بر خودکاربودن، مقیاس پذیر، کارا و کاربست پذیر است.

کلیدواژه ها

کیفیت داده، ارزیابی خودکار، داده های پیوندی، مدلهای یادگیری

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.