استفاده از شبکه های عصبی CC4 برای رده بندی اسناد فارسی
محل انتشار: دومین کنفرانس داده کاوی ایران
سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,520
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IDMC02_072
تاریخ نمایه سازی: 14 فروردین 1388
چکیده مقاله:
در این مقاله رده بندی اسناد و متون فارسی با استفاده از شبکه عصبی CC4 پیشنهاد شده است. CC4 یک نوع از الگوریتم یادگیری رده بندی کناره ای برای شبکه های سه لایه رو به جلو می باشد. از مهمترین مزایای استفاده از این شبکه ها می توان به غیرتکراری بودن این نوع شبکه در مرحله آموزش اشاره کرد. افزایشی بودن مرحله آموزش مزیت دیگری است که استفاده از این شبکه را برای رده بندی اسناد حجیم فارسی مناسب می کند. در واقع اضافه نمودن داده های آموزشی جدید به شبکه CC4 بهسادگی امکان پذیر است. همچنین، اگر مقیاس بین فایل های متنی نزدیک به هم باشد، شبکه عصبی CC4 نتایج رده بندی بهتری را ارائه می دهد. در این مقاله ابتدا پیش پردازش های ریشه یابی کلمات و حذف کلمات عمومی 1 انجام می گیرد. سپس ویژگی های آماری برای کلمات مختلف محاسبه شده و از یک روش مبتنی بر فراوانی کلمات برای نمایه گذاری اسناد استفاده می شود که اسناد با انداره های متفاوت را به یک فضای K بعدی با اندازه ثابت نگاشت می کند. با اعمال استخراج ویژگی های مناسب و تغییراتی که در این الگوریتم اعمال کرده ایم، توانسته ایم دقت این رد ه بند را روی متون فارسی بهبود دهیم. برای آزمایش این روش از مجموعه اخبار خبرگزاری ایسنا استفاده شده است. این پیکره شامل تعداد 9000 سند فارسی می باشد. رده های موجود در این پیکره شامل سیاسی، اجتماعی، فرهنگی و ورزشی است. با به کارگیری روش پیشنهادی ، اسناد پیکره با دقت حدود 90 % رده بندی شدند
کلیدواژه ها: