استخراج محتوای وب با استفاده از وزن دهی و قوانین متنی Extract web content by using weighting and textual rules

سال انتشار: 1396
محل انتشار: دومین کنفرانس بین المللی پژوهش های دانش بنیان در مهندسی کامپیوتر و فناوری اطلاعات
کد COI اختصاصی: CITCOMP02_283
زبان مقاله: فارسی
تعداد مشاهده: 975

نویسندگان

دانشجوی کارشناسی ارشد مهندسی نرم افزار گروه کامپیوتر ، دانشکده فنی مهندسی ، واحد میبد ، دانشگاه آزاد اسلامی ، یزد ، ایران

محمدجواد کارگر

استادیار گروه مهندسی کامپیوتر ، دانشگاه علم و فرهنگ ، تهران ، ایران

چکیده

امروزه دستیابی به داده ، اشتراک داده ، استخراج اطلاعات از داده و استفاده از این اطلاعات ، به امری حیاتی برای کارشناسان فناوری تبدیل شده است. با توجه به رشد انفجاری اینترنت و گسترش و افزایش چشم گیر صفحات وب و همچنین تولید منابع اطلاعاتی بزرگ در وب سایت ها و نیاز بشری به اطلاعات جدید و بروز، داده کاوی در وب به یکی از مهمترین و محبوبترین تکنیک ها جهت کشف اطلاعات و دانش مورد توجه قرار گرفته است. با این حال بسیاری از اطلاعات زاید و بی ربط از قبیل پانل ناوبری، جدول محتوا، تبلیغات، کاتالوگ خدمات، منوها و غیره... در این صفحات وجود دارد. درنتیجه محتوای صفحات وب به دو صورت محتوای مفید (اصلی) و غیرمفید(غیر اصلی) درنظرگرفته شده اند. بیشتر دریافت کننده ها وکاربران نهایی فقط محتوای مفید را جستجو می کند. دراین روش پس از استاندارد سازی صفحه وب و ایجاد درخت DOM، بهترین گره فرزند گره والد طبق الگوریتم وزن دهی انتخاب ، و سپس بهترین مسیر انتخاب و در نهایت بهترین گره نمونه انتخاب می شود و در آخر ویژگی های درخت نمونه استخراج و سپس با گره های همنام گره نمونه تطبیق داده می شود و به عنوان محتوا نمایش داده می شوند. . راه حل ارایه شده بر روی چندین مجموعه داده اعمال گردیده است ونتایج حاصل ، بیانگر دقت و فراخوانی و فاکتورF به ترتیب 992/0 و984/0 و 987/0 می باشد.

کلیدواژه ها

وب کاوی ، استخراج محتوا ، وزن دهی ، استخراج محتوا از ساختار

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.