ارائه ی یک مدل مبتنی بر یادگیری ماشین برای دسته بندی متون فارسی

حجت تدریس حسنی; محمدرضا یمقانی; راهبه مجتهدی صفاری; مجید مشکین مژه

ارائه ی یک مدل مبتنی بر یادگیری ماشین برای دسته بندی متون فارسی

محل انتشار: ششمین کنفرانس بین المللی فناوری اطلاعات، کامپیوتر و مخابرات

سال انتشار: 1398

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 878

فایل این مقاله در 21 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/924225

شناسه ملی سند علمی:

ITCT06_044

تاریخ نمایه سازی: 24 شهریور 1398

چکیده مقاله:

طبقه بندی متن بخش مهمی از بازیابی اطلاعات و متن کاوی را در بر میگیرد. عملکرد دسته بندی خوب با طبقه بندی آماری و استراتژی انتصاب مناسب حاصل میگردد. دستهبندی متون فارسی در خودکارسازی متون فارسی علمی، بازاریابی، مدیریت محصولات و تصمیم گیری نظرات فارسی کاربران شبکه های اجتماعی کاربرد دارد. انتخاب صحیح الگوریتم ها و روند استخراج ویژگیهای موثر و جامعیت مجموعه متون آموزش حائز اهمیت است، با توجه به عملیات دسته بندی متون فارسی، الحاق ها و تمهیداتی جهت سازگاری با زبان فارسی نیاز است. در خودکارسازی دسته بندی اسناد، علوم کامپیوتر، پردازش زبان طبیعی و رویکرد الگوریتمی نیاز است. در این مقاله یک رویکرد مبتنی بر متنکاوی متون فارسی و یادگیری ماشین با الگوریتمهای هوشمند ارائه گردید. در اینجا با در نظر داشتن ساختار کلمات فارسی، یک بردار ویژگی بهینه بر پایه ی استخراج ویژگی متون فارسی، انتخاب ویژگی با بهره ی اطلاعاتی و الگوریتم ژنتیک و در نهایت طبقه بندی K نزدیکترین همسایه پیشنهاد گردید. نتایج بدست آمده نشان میدهد که طرح پیشنهادی مقاله قادر است دقت دسته بندی را 3,48 درصد نسبت به طرح ترستنجاک و همکاران روی مجموعه دادگان پژوهش با متون فارسی بهبود ببخشد.

کلیدواژه ها:

دسته بندی متون ، K نزدیکترین همسایه ، متون فارسی ، بهره ی اطلاعاتی ، الگوریتم ژنتیک

نویسندگان

حجت تدریس حسنی

گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه دیلمان لاهیجان

محمدرضا یمقانی

گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، عضو هیات علمی دانشگاه آزاد اسلامی لاهیجان

راهبه مجتهدی صفاری

گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی لاهیجان

مجید مشکین مژه

گروه کامپیوتر، دانشکده فنی و مهندسی، دانشگاه دیلمان لاهیجان