روش جدید انتخاب ویژگی برای طبقه بندی اسناد فارسی با استفاده از الگوریتم های فراابتکاری

  • سال انتشار: 1398
  • محل انتشار: پنجمین کنفرانس ملی محاسبات توزیعی و پردازش داده های بزرگ
  • کد COI اختصاصی: DCBDP05_084
  • زبان مقاله: فارسی
  • تعداد مشاهده: 785
دانلود فایل این مقاله

نویسندگان

پیمان فضلی

کارشناسی ارشد نرم افزار، دانشگاه آزاد اسلامی، میاندوآب، ایران

عادل رضایی

هیات علمی گروه کامپیوتر، دانشگاه آزاد اسلامی، میاندوآب، ایران

چکیده

امروزه با افزایش روزافزون اطلاعات و گستردگی موضوعات دادهکاوی یکی از موضوعات مهم درزمینهی پردازش انبوه اطلاعات است. متن کاوی شاخه ایی از داده کاوی است که در آنها متون در دسته ها یا گروه هایی قرار میگیرند. دسته بندی متون یکی از مواردی است که اخیرا موردتوجه جوامع علمی قرارگرفته است و کاربردهای بسیاری دارد از جمله مهمترین آنها، فیلترکردن پیامهای ورودی نرم افزارهای پیام رسان مانند سروش و آی گپ میباشد. دسته بندی متون فرایندی است که در آن متون براساس وزن کلمات، که یکی از نکات مهم در افزایش دقت و کارایی الگوریتمهای دسته بندی است، در دسته هایی، قرار میگیرند. در این پژوهش، روشی برای دسته بندی متون فارسی با استفاده از ضریب همبستگی پیرسون به همراه روش جدید وزندهی Var-TFIDF و الگوریتم فراابتکاری بهینه سازی انبوه ذرات (PSO) جهت انتخاب ویژگی بهتر، ارائه شده است. برای شبیه سازی از نرم افزار متلب به همراه داده های روزنامه همشهری استفاده شده است، نتایج آزمایشها نشان داد که روش جدید وزندهی به همراه استفاده از الگوریتم فراابتکاری نسبت به سایر روشها دارای دقت بالاتری میباشد.

کلیدواژه ها

دسته بندی، متن کاوی، وزن دهی، الگوریتم فراابتکاری PSO ، ضریب همبستگی پیرسون

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.