ارزیابی روش های یادگیری ماشین در دسته بندی متون فارسی با وزن دهی ویژگی ها و استخراج داده مناسب
سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 723
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ECICONFE03_009
تاریخ نمایه سازی: 3 تیر 1398
چکیده مقاله:
با توجه به اینکه اطلاعات اغلب به صورت متن ذخیره می شوند،به همین دلیل متن کاوی که به کشف دانش از داخل متون می پردازد پتانسیل زیادی برای استفاده در شرکت ها و سازمان ها برای استخراج دانش در متون دارد. هدف این پژوهش، ارزیابی روش های یادگیری ماشین در دسته بندی متون فارسی با وزن دهی ویژگی ها و استخراج داده مناسب می باشد ،در این پژوهش، ابتدا برنامه ای برای دسته بندی متون فارسی با روش آماری به صورت ابتکاری و برنامه دیگری برای تهیه مجموعه داده متون فارسی پیاده سازی شد و از متون آموزشی و آزمایشی استاندارد، مجموعه دادگان مورد نظر استخراج گردید. برای دسته بندی متون فارسی، از روش های K-نزدیکترین همسایه، شبکه های عصبی پرسپترون، LVQ، SOM، PatternNet ، ماشین بردار پشتیبان و روش آماری، استفاده شد. داده های آموزشی و آزمون این پژوهش، از اخبار روزانه فارسی استخراج شد و سعی شد متون مورد نظر در حوزه های نه گانه اقتصادی، سیاسی، حوادث، هنر، ورزشی، ادبی، پزشکی، تاریخی و مذهبی دسته بندی شوند. در نهایت نتایج دسته بندی نشان داد از بین هفت روش ذکر شده، آماری، شبکه عصبی پرسپترون، LVQ، PatternNet، SOM، الگوریتم K-نزدیک ترین همسایه و ماشین بردار پشتیبان، روش آماری ابتکاری، الگوریتم روش K-نزدیک ترین همسایه و شبکه عصبی PatternNet، با درصد موفقیت 92،93و 96، مناسب ترین روش ها برای کار دسته بندی متون فارسی می باشند. نتایج این پژوهش در مقایسه با سایر پژوهش های مرتبط، نشان می دهد که نرم افزار استخراج مجموعه داده برای این کار مناسب ارزیابی شده و روش های آماری، الگوریتم K-نزدیک ترین همسایه و PatternNet کارایی خوبی در دسته بندی متون فارسی دارند
کلیدواژه ها:
نویسندگان
حکیمه چمانی ریک
گروه کامپیوتر ،دانشگاه آزاد اسلامی واحد بندر عباس،هرمزگان،ایران
محمد شجاعی
گروه کامپیوتر ،دانشگاه آزاد اسلامی واحد بندر عباس،هرمزگان،ایران