دسته بندی متون با تکنیک های انتخاب ویژگی و یادگیری ماشین
- سال انتشار: 1393
- محل انتشار: همایش ملی رویکرد عملی به پیاده سازی مفاهیم علمی،مباحث تئوری و پژوهش های های کاربردی علوم فنی
- کد COI اختصاصی: EMAP01_048
- زبان مقاله: فارسی
- تعداد مشاهده: 1519
نویسندگان
گروه کامپیوتر، واحد علوم و تحقیقات خوزستان، دانشگاه آزاد اسلامی واحد اهواز ،ایران- گروه کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی اهواز،
گروه مهندسی کامپیوتر، واحد دزفول، دانشگاه آزاد اسلامی دزفول، ایران
گروه کامپیوتر، واحد علوم و تحقیقات تهران، دانشگاه آزاد اسلامی تهران، ایران
چکیده
اسناد الکترونیکی حجم انبوهی از اطلاعات را در خود جای داده اند، اما برای متن کاوی بسیاری از آنها زائد و اضافی می باشند. از این رو لازم است بعنوان پیش پردازش، ویژگی های مناسب از بین این حجم اطلاعات استخراج شود. برای انتخاب ویژگی روش های بسیاری ارائه شده است. در اینجا ما دو الگوریتم تکاملی بهینه سازی کلونی مورچه ها و ژنتیک را برای انتخاب ویژگی متن مورد مقایسه قرارداده ایم. این الگوریتم ها بر روی مجموعه داده رویترز -21578 شبیه سازی شده اند. نتایج به دست آمده نشان دهنده برتری الگوریتم ژنتیک با استفاده از الگوریتم یادگیری Decision Tree در میانگین دقت برابر %72.35، میانگین فراخوانی برابر %48.53 ، میانگین f1 برابر با %49.54 و با استفاده از الگوریتم یادگیریKNN در میانگین دقت برابر%80.41، میانگین فراخوانی برابر%59.74 و میانگین f1 برابر با %60.33 می باشد. همچنین نمودارهای Macro-f1 و Micro-f1 برای مقایسه الگوریتم های ACO و GA رسم شده است که برتری الگوریتم GA را نشان می دهد.کلیدواژه ها
متن کاوی، انتخاب ویژگی، الگوریتم ژنتیک، الگوریتم بهینه سازی کلونی مورچه ها، دسته بندی متوناطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.