رده بندی متون با استفاده از تکنیک ترکیبی مبتنی بر زیرمجموعه ویژگی
- سال انتشار: 1391
- محل انتشار: همایش ملی علوم و مهندسی کامپیوتر
- کد COI اختصاصی: NCCSE01_128
- زبان مقاله: فارسی
- تعداد مشاهده: 805
نویسندگان
دانشکده مهندسی شهید چمران اهواز
دانشکده مهندسی شهید چمران اهواز
دانشکده مهندسی شهید چمران اهواز
چکیده
با رشد جشم گیر اسناد متنی دیجیتال نیاز به یافتن اطلاعات مفید از این متون افزایش یافته و رده بندی خودکار متون، تکنولوژی کلیدی برای پاسخ به این نیاز است. به ازای هر سند متنی، واژه ها نقش ویژگی را در رده بندی ایفا می کنند که با توجه به حجم زیاد واژه، رده بند با مشکل ابعاد زیاد ویژگی مواجه است. هدف از این پژوهش، طراحی یک سیستم رده بندی کاراست که با حداقل ویژگی، کارایی نهایی یادگیرنده را افزایش دهد. در این سیستم یک روش ترکیبی همگن، مبتنی بر زیرمجموعه های متفاوت ویژگی بررسی شده است که باعث بهبود کارایی رده بند پایه در حداقل تعداد ویژگی می گردد. به منظور تولید زیرمجموعه ها از تکنیک های فیلتری و در مرحله ی یادگیری، رده بند SVM استفاده شده است. نتایج به دست آمده بر روی مجموعه داده ی رویترز – 21578، نشان دهنده ی کارایی بالای سیستم ارائه شده نسبت به رده بند منفرد است. به طوری که کارایی 0/97 در معیار میکرو- F1 و 0/921 در معیار ماکرو- F1 به دست آمده است.کلیدواژه ها
رده بندی متون، SVM، ترکیب رده بند، زیرمجموعه ویژگی، انتخاب ویژگیمقالات مرتبط جدید
- تحلیل انطباقی کیفیت و میزان محبوبیت خدمات ابری با بررسی و مقایسه رتبه بندی Tranco و رتبه بندی عملکردی شرکت های ابری
- طبقه بندی سیگنال های EEG ثبت شده از قشر پیش پیشانی به منظور کشف اثر موسیقی در شدت احساسات با استفاده از شبکه عصبی مصنوعی و پرسشنامه
- ارائه رویکردی برای مدیریت ریسک در پروژه های نرمافزاری با استفاده از خوشه بندی تجمعی
- تحلیل احتمالنقض ترتیب علیتی پیام ها در یک الگوریتم پخش علیتی در سیستمهای توزیع شده
- بهینه سازی به سبک گربه های شنی: الگوریتمی برای جستجوی کارآمد و مدیریت ازدحام
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.