دسته بندی متون فارسی بااستفاده ازترکیب خبره ها وبهره گیری ازروشهای GA,LDA,PCA جهت کاهش ویژگی

سال انتشار: 1392
محل انتشار: دوازدهمین کنفرانس ملی سیستم های هوشمند ایران
کد COI اختصاصی: ICS12_050
زبان مقاله: فارسی
تعداد مشاهده: 601

نویسندگان

گروه مهندسی کامپیوتردانشگاه آزاد اسلامی واحد بابل

چکیده

باافزایش حجم اطلاعات نیازبه ابزارهایی که بتواننددرمدیریت منابع موثرباشند کاملا احساس میشود دسته بندی متون فرایندی است که درآن متن ها دریک یاچند دسته ازقبل تعریف شده براساس محتوا قرارمیگیرند دراین مقاله ازترکیب خبره ها بطور خاص شبکه عصبی دردسته بندی مستندات نیمه ساختیافته XML برروی پایگاه داده روزنامه همشهری استفاده شدها ست البته برای دسته بندی مستندات انتخاب ویژگیهای مهم نقش بسزایی دارد لذا تمرکز بررویتکنیک های پیش پردازش و به گونه ویژه روش های وزن دهی ویژگی مورد بررسی قرارگرفته و یکی ازروشها برای وزن دهی به مستندات انتخاب شده است سپس به کمک روش تجزیه و تحلیل مولفه های اصلی به ارزش دهی ویژگیها پرداخته و با الگوریتم نزدیکترین همسایگی تعدادی ازآنها انتخاب و به عنوان ورودی یکی ازخبره ها استفاده میشود درمرحله بعدازویژگیهای ارزش دهی شده یک باربه کمک الگوریتم جداکننده خطی و باردیگر به کمک الگوریتم ژنتیک تعدادی ویژگی انتخاب وبطور مجزا به عنوان ورودی به خبره ها اعمال میشود سپس نتایج خروجی این سه خبره بایکدیگرترکیب شده درنهایت موردتست وارزیابی قرارمیگیرد نتایج بدست امده نشان میدهد دسته بندی متون بادقت بالایی انجام گرفته است

کلیدواژه ها

استخراج ویژگی ، دسته بندی متون ، شبکه عصبی چندلایه پرسپترون ، مستندات نیمه ساختیافته ، وزن دهی ویژگی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.