ارائه روشی سریالی جهت دسته بندی خودکار متون مبتنی بر تکنیک های داده کاوی و یادگیری ماشین

معصومه, علی نژاد; ایمان, عطارزاده; ابراهیم, بهروزیان نژاد

ارائه روشی سریالی جهت دسته بندی خودکار متون مبتنی بر تکنیک های داده کاوی و یادگیری ماشین

عنوان مقاله: ارائه روشی سریالی جهت دسته بندی خودکار متون مبتنی بر تکنیک های داده کاوی و یادگیری ماشین
شناسه ملی مقاله: NCECN01_041
منتشر شده در اولین همایش ملی مهندسی برق و کامپیوتر در شمال کشور در سال 1393

مشخصات نویسندگان مقاله:

معصومه علی نژاد - دانشجوی کارشناسی ارشد،گروه کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات خوزستان، اهواز، ایران.
ایمان عطارزاده - استادیار و عضو هیئت علمی، گروه کامپیوتر، دانشگاه آزاد اسلامی واحد دزفول، دزفول، ایران
ابراهیم بهروزیان نژاد - استادیار و عضو هیئت علمی، گروه کامپیوتر، دانشگاه آزاد اسلامی واحد شوشتر، شوشتر، ایران

خلاصه مقاله:

در این مقاله مدلی پیشنهاد می شود که با استفاده از روش ترکیبی به صورت متوالی از خروجی دسته بندها سعی در افزایش کارایی دسته بندی دارد. در مرحله انتخاب ویژگی از بین تکنیک های فیلتری موجود، با توجه به آزمایش های انجام شده، روش بهره ی اطلاعاتی انتخاب می شود تا پیچیدگی کمتری نسبت به تکنیک های پوششی داشته باشد. در مرحله یادگیری روش پیشنهادی، از روش دسته بندی به صورت متوالی با استفاده از ترکیب الگوریتم های دسته بندی ماشین بردار پشتیبان، بیز ساده و درخت تصمیم مورد ارزیابی قرار گرفته است، که ارزیابی روش پیشنهادی از ترکیب دو دسته بند SVM و J48 بهینه تر بوده است و دارای میانگین دقت 98.25 درصد، میانگین فراخوانی98.17 درصد، میانگین F-Measure98.20 درصد، معیار درستی 98.38 درصد و خطای دسته بندی 1.62 درصد بوده است. ارزیابی های انجام شده در محیط نرم افزار داده کاویRapid Miner نسخه 5.2 و بر روی مجموعه داده های اخبار رویترز_21578 بوده است. و در انتها روش پیشنهادی با روش سریالی ژانگ و همکاران که در مقاله خود ارائه داده اند مورد مقایسه قرار گرفته است در این مقاله تنها دو معیار Precision و F-Measure بیان شده است که در ارزیابی انجام شده روش پیشنهادی در معیار Precision و F-Measure بهینه تر بوده است.

کلمات کلیدی:

متن کاوی، کاوش متن، داده کاوی، یادگیری ماشین، استخراج دانش

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/330296/