طبقه بندی صفحات وب براساس ترکیبی از تکنیک های یادگیری ماشین
سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,462
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CEIT01_203
تاریخ نمایه سازی: 9 تیر 1393
چکیده مقاله:
دسته بندی صفحات وب، در واقع پروسه اختصاص یک صفحه وب به یک طبقه مناسب و از پیش تعیین شده می باشد. دسته بندی صفحات وب در مقایسه با دسته بندی استاندارد متنی، به چند دلیل متفاوت است . دسته بندی سنتی متنی، معمولاً روی اسناد ساخت یافته که با سبک ثابتی نوشته شده اند ( همانند مقالات، کتابه ها و ...) انجام می شود، درحالیکه محتوای وب شامل ویژگی های فراوانی می باشد که ابتدا می بایست پیش پردازش مناسب را جهت تولید ویژگی ها انجام داد و سپس ویژگی های متنی مناسب را انتخاب کرد و به دسته بندی صفحات یا اسناد الکترونیکی با استفاده از محتوای متنی آنها پرداخت. در این مقاله با ارائه یک سیستم ترکیبی سلسله مراتبی Hierarchical Hybrid System ، ابتدا با روش Ngram ویژگی های مناسب تولید گردیده و با استفاده از ترکیب دو روش انتخاب ویژگی فیلتر افزایش اطلاعات Information Gain و رپر DMNB Wrapper DMNB ویژگی مناسب انتخاب شده اند و در نهایت توسط الگوریتم های KNN,SVM و DMNB طبقه بندی صفحات را انجام داده ایم. نتایج بدست آمده نشان می دهد که سیستم ترکیبی پیشنهادی می تواند به نسبت بهتر عمل کند و بهره وری و کارایی بیشتری در مقایسه با سایر روش ها داشته باشد.
کلیدواژه ها:
طبقه بندی وب ، Web Classification ، سیستم ترکیبی سلسله مراتبی ، انتخاب ویژپی Feature Selection ، رپر Wrapper ، فیلتر Filter ، درخت تصمیم KNN.C4.5 و DMNB
نویسندگان
محمدرضا گلاب
گروه کامپیوتر، دانشگاه آزاد اسلامی واحد دزفول، دزفول، ایران
علیرضا عصاره
دانشیار گروه کامپیوتر، دانشگاه شهید چمران ، اهواز، ایران
بیتا شادگار
استادیار گروه کامپیوتر، دانشگاه شهید چمران، اهواز، ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :