یک روش ترکیبی و معنایی انتخاب ویژگی جهت بهبود کارایی طبقه بندی داده های متنی نامتوازن فارسی

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 515

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICTI02_117

تاریخ نمایه سازی: 7 خرداد 1398

چکیده مقاله:

انتخاب زیرمجموعه ای از ویژگی ها، یکی از مراحل ضروری در پیش پردازش متون قبل از اعمال الگوریتم های طبقه بندی است. اگرچه روش های کشف دانش موجود و فن های مهندسی داده موفقیت بزرگی در بسیاری از برنامه های کاربردی نشان داده اند، اما مشکل یادگیری از داده های نامتوازن یک چالش است که توجه دانشگاه و صنعت را به خود جلب کرده است. در این تحقیق یک روش دو مرحله ای برای انتخاب ویژگی داده های متنی نامتوازن پیشنهاد شده است. در مرحله اول، روشی معنایی برای کاهش ویژگی ها استفاده می شود و در مرحله دوم یک روش ترکیبی پالایه و پوشانه پیشنهاد شده است. در این تحقیق از پردازش های معنایی خاص متن و ترکیب روشهای پالایه و پوشانه برای انتخاب ویژگی بر کارایی طبقه بندهای درخت تصمیم k نزدیکترین همسایه و ماشین بردار پشتیبان برای طبقه بندی متون نامتوازن فارسی استفاده شده است. نتایج نشان می دهد که روش پیشنهادی انتخاب ویژگی روی پیکره همشهری، علیرغم کاهش تعداد ویژگی ها، باعث بهبود نتایج طبقه بندی شده است. نتایج بدست آمده در مرحله اول انتخاب ویژگی و پس از اعمال پردازش های معنایی بطور میانگین به میزان 21/125 بهبود داشته است. همچنین بهبود نتایج بدست آمده در مرحله دوم نسبت به مرحله اول انتخاب ویژگی 1/13 است.

کلیدواژه ها:

الگوریتم های طبقه بندی متون ، داده های نامتوازن ، انتخاب ویژگی DFS ، انتخاب ویژگی ترکیبی ، روش پالایه و پوشانه

نویسندگان

زینب علی بابا

پژوهشگر، گروه مهندسی فناوری اطلاعات، موسسه غیرانتفاعی تعالی

بهروز مینایی بیدگلی

استاد راهنما، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران

جعفر پورامینی

استاد مشاور، گروه مهندسی فناوری اطلاعات، دانشکده فنی مهندسی، دانشگاه قم