طبقه بندی صفحات وب براساس ترکیبی از تکنیک های یادگیری ماشین

  • سال انتشار: 1392
  • محل انتشار: اولین کنفرانس ملی نوآوری در مهندسی کامپیوتر و فنآوری اطلاعات
  • کد COI اختصاصی: CEIT01_203
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1455
دانلود فایل این مقاله

نویسندگان

محمدرضا گلاب

گروه کامپیوتر، دانشگاه آزاد اسلامی واحد دزفول، دزفول، ایران

علیرضا عصاره

دانشیار گروه کامپیوتر، دانشگاه شهید چمران ، اهواز، ایران

بیتا شادگار

استادیار گروه کامپیوتر، دانشگاه شهید چمران، اهواز، ایران

چکیده

دسته بندی صفحات وب، در واقع پروسه اختصاص یک صفحه وب به یک طبقه مناسب و از پیش تعیین شده می باشد. دسته بندی صفحات وب در مقایسه با دسته بندی استاندارد متنی، به چند دلیل متفاوت است . دسته بندی سنتی متنی، معمولاً روی اسناد ساخت یافته که با سبک ثابتی نوشته شده اند ( همانند مقالات، کتابه ها و ...) انجام می شود، درحالیکه محتوای وب شامل ویژگی های فراوانی می باشد که ابتدا می بایست پیش پردازش مناسب را جهت تولید ویژگی ها انجام داد و سپس ویژگی های متنی مناسب را انتخاب کرد و به دسته بندی صفحات یا اسناد الکترونیکی با استفاده از محتوای متنی آنها پرداخت. در این مقاله با ارائه یک سیستم ترکیبی سلسله مراتبی Hierarchical Hybrid System ، ابتدا با روش Ngram ویژگی های مناسب تولید گردیده و با استفاده از ترکیب دو روش انتخاب ویژگی فیلتر افزایش اطلاعات Information Gain و رپر DMNB Wrapper DMNB ویژگی مناسب انتخاب شده اند و در نهایت توسط الگوریتم های KNN,SVM و DMNB طبقه بندی صفحات را انجام داده ایم. نتایج بدست آمده نشان می دهد که سیستم ترکیبی پیشنهادی می تواند به نسبت بهتر عمل کند و بهره وری و کارایی بیشتری در مقایسه با سایر روش ها داشته باشد.

کلیدواژه ها

طبقه بندی وب ،Web Classification ، سیستم ترکیبی سلسله مراتبی، انتخاب ویژپی Feature Selection ، رپر Wrapper ، فیلتر Filter ، درخت تصمیم KNN.C4.5 و DMNB

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.