استخراج محتوای وب با استفاده از وزن دهی و قوانین متنی Extract web content by using weighting and textual rules
- سال انتشار: 1396
- محل انتشار: دومین کنفرانس بین المللی پژوهش های دانش بنیان در مهندسی کامپیوتر و فناوری اطلاعات
- کد COI اختصاصی: CITCOMP02_283
- زبان مقاله: فارسی
- تعداد مشاهده: 975
نویسندگان
دانشجوی کارشناسی ارشد مهندسی نرم افزار گروه کامپیوتر ، دانشکده فنی مهندسی ، واحد میبد ، دانشگاه آزاد اسلامی ، یزد ، ایران
استادیار گروه مهندسی کامپیوتر ، دانشگاه علم و فرهنگ ، تهران ، ایران
چکیده
امروزه دستیابی به داده ، اشتراک داده ، استخراج اطلاعات از داده و استفاده از این اطلاعات ، به امری حیاتی برای کارشناسان فناوری تبدیل شده است. با توجه به رشد انفجاری اینترنت و گسترش و افزایش چشم گیر صفحات وب و همچنین تولید منابع اطلاعاتی بزرگ در وب سایت ها و نیاز بشری به اطلاعات جدید و بروز، داده کاوی در وب به یکی از مهمترین و محبوبترین تکنیک ها جهت کشف اطلاعات و دانش مورد توجه قرار گرفته است. با این حال بسیاری از اطلاعات زاید و بی ربط از قبیل پانل ناوبری، جدول محتوا، تبلیغات، کاتالوگ خدمات، منوها و غیره... در این صفحات وجود دارد. درنتیجه محتوای صفحات وب به دو صورت محتوای مفید (اصلی) و غیرمفید(غیر اصلی) درنظرگرفته شده اند. بیشتر دریافت کننده ها وکاربران نهایی فقط محتوای مفید را جستجو می کند. دراین روش پس از استاندارد سازی صفحه وب و ایجاد درخت DOM، بهترین گره فرزند گره والد طبق الگوریتم وزن دهی انتخاب ، و سپس بهترین مسیر انتخاب و در نهایت بهترین گره نمونه انتخاب می شود و در آخر ویژگی های درخت نمونه استخراج و سپس با گره های همنام گره نمونه تطبیق داده می شود و به عنوان محتوا نمایش داده می شوند. . راه حل ارایه شده بر روی چندین مجموعه داده اعمال گردیده است ونتایج حاصل ، بیانگر دقت و فراخوانی و فاکتورF به ترتیب 992/0 و984/0 و 987/0 می باشد.کلیدواژه ها
وب کاوی ، استخراج محتوا ، وزن دهی ، استخراج محتوا از ساختارمقالات مرتبط جدید
- مرور سیستماتیک کاربرد هوش مصنوعی در موسیقی
- In-silico Analyses for Finding Potential Key Genes and Pathways Associated with Guillain-Barré Syndrome Using Computational Tools
- OCD Severity Based on EEG Signals
- Investigating the (non) -Impact of Customizing Knowledge Bases of Artificial Intelligence -Driven Robot on Language for Specific Purposes Learning
- The Need for Telehealth and Tele-Educationon in Optimizing Measles Surveillance and Reducing Healthcare Costs
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.