طبقه بندی صفحات وب براساس ترکیبی از تکنیک های یادگیری ماشین
- سال انتشار: 1392
- محل انتشار: اولین کنفرانس ملی نوآوری در مهندسی کامپیوتر و فنآوری اطلاعات
- کد COI اختصاصی: CEIT01_203
- زبان مقاله: فارسی
- تعداد مشاهده: 1455
نویسندگان
گروه کامپیوتر، دانشگاه آزاد اسلامی واحد دزفول، دزفول، ایران
دانشیار گروه کامپیوتر، دانشگاه شهید چمران ، اهواز، ایران
استادیار گروه کامپیوتر، دانشگاه شهید چمران، اهواز، ایران
چکیده
دسته بندی صفحات وب، در واقع پروسه اختصاص یک صفحه وب به یک طبقه مناسب و از پیش تعیین شده می باشد. دسته بندی صفحات وب در مقایسه با دسته بندی استاندارد متنی، به چند دلیل متفاوت است . دسته بندی سنتی متنی، معمولاً روی اسناد ساخت یافته که با سبک ثابتی نوشته شده اند ( همانند مقالات، کتابه ها و ...) انجام می شود، درحالیکه محتوای وب شامل ویژگی های فراوانی می باشد که ابتدا می بایست پیش پردازش مناسب را جهت تولید ویژگی ها انجام داد و سپس ویژگی های متنی مناسب را انتخاب کرد و به دسته بندی صفحات یا اسناد الکترونیکی با استفاده از محتوای متنی آنها پرداخت. در این مقاله با ارائه یک سیستم ترکیبی سلسله مراتبی Hierarchical Hybrid System ، ابتدا با روش Ngram ویژگی های مناسب تولید گردیده و با استفاده از ترکیب دو روش انتخاب ویژگی فیلتر افزایش اطلاعات Information Gain و رپر DMNB Wrapper DMNB ویژگی مناسب انتخاب شده اند و در نهایت توسط الگوریتم های KNN,SVM و DMNB طبقه بندی صفحات را انجام داده ایم. نتایج بدست آمده نشان می دهد که سیستم ترکیبی پیشنهادی می تواند به نسبت بهتر عمل کند و بهره وری و کارایی بیشتری در مقایسه با سایر روش ها داشته باشد.کلیدواژه ها
طبقه بندی وب ،Web Classification ، سیستم ترکیبی سلسله مراتبی، انتخاب ویژپی Feature Selection ، رپر Wrapper ، فیلتر Filter ، درخت تصمیم KNN.C4.5 و DMNBمقالات مرتبط جدید
- BMLDD: Breast mass lesion detection by using Deep Learning
- تحلیل نقش شبکه های اجتماعی در تجارت الکترونیک در بازار ایران
- کاربرد سیستم های فازی در معماری کامپیوتر(سیستم های کامپیوتری.سخت افزارها.طراحی سخت افزارها)
- بررسی الگوریتم های یادگیری ماشین
- ارائه یک پروتکل احراز هویت در شبکه خودرویی در جهت نظارت ترافیک شهری
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.