Evaluating preprocessing by Turing Machine in text categorization
- سال انتشار: 1392
- محل انتشار: دوازدهمین کنفرانس ملی سیستم های هوشمند ایران
- کد COI اختصاصی: ICS12_203
- زبان مقاله: انگلیسی
- تعداد مشاهده: 1044
نویسندگان
Department of Computer Engineering,Hamedan Branch, Islamic Azad University, Science And Research Campus, Hamedan, Iran
Department of Computer Engineering,Bu-Ali Sina University, Hamedan, Iran
Department of Computer Engineering,Hamedan Branch, Islamic Azad University, Hamedan, Iran
چکیده
By developing the World Wide Web, text categorization becomes a key technology to deal with and organize a large number of documents. Automatic text categorization is amethod to contrast a massive data. The basic phases of text categorization include preprocessing, extracting relevant featuresagainst the features in a database, and finally categorizing a set of documents into predefined categories. In this article, we proposea new preprocessing method by Turing Machine. All of four steps in preprocessing such as sentence segmentation, tokenization, stopword removal, and word stemming are done by Turing Machine.Aiming to access the importance of the preprocessing by Turing Machine on the text classification problem, we applied the supportvector machine paradigm to the Reuters and PAGOD dataset. Searching for the best document representation, we evaluated and analyzed some known feature reduction, feature subset selection and term weighting. Experiments show that proposed method is more accurate than other methodsکلیدواژه ها
Preprocessing; Turing Machine; text categorization;Support Vector Machinesمقالات مرتبط جدید
- یک شبکه عصبی مصنوعی بهینه کارآمد در پیش بینی تغییر شکلدیوارهای خاکی تقویت شده با ژئوگرید
- به سمت هستان شناسی حمل و نقل هوشمند: معرفی کلاس های سطح بالا
- اثر ضربه ناشی از برخورد وسایل نقلیه بر عملکرد غیر خطی سازه ها: مطالعه مروری
- برآورد نرخ سفرسازی مجتمع های مسکونی شهر مشهد
- تاکسی ، اتوبوس ،قطار شهریکدام بهتر است ؟
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.