ارایه یک مدل پیشنهادی جهت استخراج ویژگی از نوشتارهای کلان

مسعود کاویانی; محمد ندیمی

ارایه یک مدل پیشنهادی جهت استخراج ویژگی از نوشتارهای کلان

محل انتشار: کنفرانس بین المللی مهندسی و علوم کامپیوتر

سال انتشار: 1395

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 551

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/648391

شناسه ملی سند علمی:

ICCSE01_239

تاریخ نمایه سازی: 14 شهریور 1396

چکیده مقاله:

در فرآیند طبقه بندی متون (Text Classification)، یک مشکل عمومی وجود دارد، که آن هم تعداد زیاد ویژگی های (Features) مسیله است. به خاطر مدل های مختلف مانند کوله ای از کلمات (Bag Of Words)، هر کلمه به یک بعد نگاشت می شود و به دلیل تعدد زیاد کلمات یکتا در یک انباره ی متنی، حجم مدل، بسیار بزرگ می شود. برای مقابله با این مشکل یک روش عمومی به نام انتخاب ویژگی (Feature Selection) وجود دارد. در روش های انتخاب ویژگی، یک زیر مجموعه ای از کلمات موجود، به عنوان کلمات ارزشمند در طبقه بندی، شناسایی می شوند و بقیه ی کلمات، که ارزش زیادی در طبقه بندی ندارند (و در اصلاح اطلاعات زیادی ندارد)، بایستی حذف شده و در فرآیند طبقه بندی استفاده نشوند. در این مقاله سعی شده، روش ها و متدولوژی های مختلف انتخاب ویژگی بررسی شوند، و یک روش پیشنهادی جهت استخراج ویژگی از متون خبری کلان، ارایه شود.

کلیدواژه ها:

طبقه بندی متن ، انتخاب ویژگی ، استخراج ویژگی ، کاهش ابعاد

نویسندگان

مسعود کاویانی

دانشکده مهندسی کامپیوتر، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، اصفهان، ایران

محمد ندیمی

دانشکده مهندسی کامپیوتر، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، اصفهان، ایران