دسته بندی متون فارسی با استفاده از الگوریتم SVM و بررسی روشهای کاهش خصیصه

سال انتشار: 1388
محل انتشار: سومین کنفرانس داده کاوی
کد COI اختصاصی: IDMC03_044
زبان مقاله: فارسی
تعداد مشاهده: 5322

نویسندگان

استادیار دانشکده برق و کامپیوتر

دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه تربیت مدرس

چکیده

در دسته بندی متون بطور معمول از کلمات متن به عنوان خصیصه های آن متن استفاده می شود در نتیجه روشهای دسته بندی متون با تعداد زیادی خصیصه مواجه می باشند به منظور کاهش تعدا د خصیصه ها و انتخاب خصیصه های مرتبط از روشهای متعددی استفاده می شود دراین مقاله به مقایسه روشهای مورد استفاده در دسته بندی متون و معرفی بهترین روش می پردازیم از جمله روشهای موجود در دسته بندی متون می توان به روشهی بیزین ساده KNN Rocchio رگرسیون، درختهای تصمیم گیری ، شبکه های عصبی، SVM، مبتنی بر قاعده و تکاملی اشاره نمود روش SVM یکی از بهترین روشها در دسته بندی متون می باشد دراین روش که یکی از روشهای یادگیری با سرپرستی میباشد اطلاعات را ازفضای حاضر به فضای برداری دیگری عموما با ابعاد بیشتر که در آن الگوریتم های یادگیری خطی قابل کاربرد است نگاشت می کند.

کلیدواژه ها

انتخاب خصیصه، دسته بندی متون ، روش SVM، استخراج خصیصه، فضای برداری

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.