طبقه بندی صفحات وب براساس ترکیبی از تکنیک های یادگیری ماشین
- سال انتشار: 1392
- محل انتشار: اولین کنفرانس ملی نوآوری در مهندسی کامپیوتر و فنآوری اطلاعات
- کد COI اختصاصی: CEIT01_203
- زبان مقاله: فارسی
- تعداد مشاهده: 1488
نویسندگان
گروه کامپیوتر، دانشگاه آزاد اسلامی واحد دزفول، دزفول، ایران
دانشیار گروه کامپیوتر، دانشگاه شهید چمران ، اهواز، ایران
استادیار گروه کامپیوتر، دانشگاه شهید چمران، اهواز، ایران
چکیده
دسته بندی صفحات وب، در واقع پروسه اختصاص یک صفحه وب به یک طبقه مناسب و از پیش تعیین شده می باشد. دسته بندی صفحات وب در مقایسه با دسته بندی استاندارد متنی، به چند دلیل متفاوت است . دسته بندی سنتی متنی، معمولاً روی اسناد ساخت یافته که با سبک ثابتی نوشته شده اند ( همانند مقالات، کتابه ها و ...) انجام می شود، درحالیکه محتوای وب شامل ویژگی های فراوانی می باشد که ابتدا می بایست پیش پردازش مناسب را جهت تولید ویژگی ها انجام داد و سپس ویژگی های متنی مناسب را انتخاب کرد و به دسته بندی صفحات یا اسناد الکترونیکی با استفاده از محتوای متنی آنها پرداخت. در این مقاله با ارائه یک سیستم ترکیبی سلسله مراتبی Hierarchical Hybrid System ، ابتدا با روش Ngram ویژگی های مناسب تولید گردیده و با استفاده از ترکیب دو روش انتخاب ویژگی فیلتر افزایش اطلاعات Information Gain و رپر DMNB Wrapper DMNB ویژگی مناسب انتخاب شده اند و در نهایت توسط الگوریتم های KNN,SVM و DMNB طبقه بندی صفحات را انجام داده ایم. نتایج بدست آمده نشان می دهد که سیستم ترکیبی پیشنهادی می تواند به نسبت بهتر عمل کند و بهره وری و کارایی بیشتری در مقایسه با سایر روش ها داشته باشد.کلیدواژه ها
طبقه بندی وب ،Web Classification ، سیستم ترکیبی سلسله مراتبی، انتخاب ویژپی Feature Selection ، رپر Wrapper ، فیلتر Filter ، درخت تصمیم KNN.C4.5 و DMNBمقالات مرتبط جدید
- فشرده سازی داده های ساخته شده با پاشش گاوسی در مدل سازی سه بعدی با استفاده از تحلیل مولفه اصلی
- دسته بندی عیوب جوش روی تصاویر پرتونگاری صنعتی با معرفی مدل یادگیری عمیق WeldClassNet
- بهبود تخمین بارندگی از پردازش تصاویر ماهواره ای با تلفیق هوش مصنوعی و داده های جغرافیایی (مطالعه موردی شهرستان بندرانزلی)
- تشخیص بیماری صرع در سیگنالهای الکتروانسفالوگرافی با استفاده از الگوریتم ازدحام ذرات و ماشین بردار پشتیبان کوانتومی
- ارائه روش بهبود شناسایی کشتی در تصاویر SAR با استفاده از شبکه عصبی عمیق مبتنی بر باکس های مرزی چرخشی و الگوریتم توجه ادغام شده
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.