ارائه ی یک مدل مبتنی بر یادگیری ماشین برای دسته بندی متون فارسی

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 713

فایل این مقاله در 21 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITCT06_044

تاریخ نمایه سازی: 24 شهریور 1398

چکیده مقاله:

طبقه بندی متن بخش مهمی از بازیابی اطلاعات و متن کاوی را در بر میگیرد. عملکرد دسته بندی خوب با طبقه بندی آماری و استراتژی انتصاب مناسب حاصل میگردد. دستهبندی متون فارسی در خودکارسازی متون فارسی علمی، بازاریابی، مدیریت محصولات و تصمیم گیری نظرات فارسی کاربران شبکه های اجتماعی کاربرد دارد. انتخاب صحیح الگوریتم ها و روند استخراج ویژگیهای موثر و جامعیت مجموعه متون آموزش حائز اهمیت است، با توجه به عملیات دسته بندی متون فارسی، الحاق ها و تمهیداتی جهت سازگاری با زبان فارسی نیاز است. در خودکارسازی دسته بندی اسناد، علوم کامپیوتر، پردازش زبان طبیعی و رویکرد الگوریتمی نیاز است. در این مقاله یک رویکرد مبتنی بر متنکاوی متون فارسی و یادگیری ماشین با الگوریتمهای هوشمند ارائه گردید. در اینجا با در نظر داشتن ساختار کلمات فارسی، یک بردار ویژگی بهینه بر پایه ی استخراج ویژگی متون فارسی، انتخاب ویژگی با بهره ی اطلاعاتی و الگوریتم ژنتیک و در نهایت طبقه بندی K نزدیکترین همسایه پیشنهاد گردید. نتایج بدست آمده نشان میدهد که طرح پیشنهادی مقاله قادر است دقت دسته بندی را 3,48 درصد نسبت به طرح ترستنجاک و همکاران روی مجموعه دادگان پژوهش با متون فارسی بهبود ببخشد.

نویسندگان

حجت تدریس حسنی

گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه دیلمان لاهیجان

محمدرضا یمقانی

گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، عضو هیات علمی دانشگاه آزاد اسلامی لاهیجان

راهبه مجتهدی صفاری

گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی لاهیجان

مجید مشکین مژه

گروه کامپیوتر، دانشکده فنی و مهندسی، دانشگاه دیلمان لاهیجان