دسته بندی متون فارسی با استفاده از شبکه عصبی و بهره گیری از الگوریتم های LDA,PCA جهت کاهش ویژگی

  • سال انتشار: 1392
  • محل انتشار: دومین همایش ملی کامپیوتر
  • کد COI اختصاصی: NCCOS02_058
  • زبان مقاله: فارسی
  • تعداد مشاهده: 991
دانلود فایل این مقاله

نویسندگان

مهدی برفامی

دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی بابل، ایران

سهیل فاطری

دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی بابل، ایران

چکیده

در دنیای مدرن کنونی، دستیابی به اطلاعات ارزش بالایی دارد. با افزایش حجم اطلاعات، نیاز فوقالعاده به ابزارهایی که بتوانند در جستجو، فیلترنمودن و مدیریت منابع موثر باشند، کاملاً احساس میشود. دسته بندی متون، فرآیندی است که در آن متنها در یک یا چند دسته از قبل تعریف شده براساس محتوا یا زبان نگارش متن قرار میگیرند. در این مقاله کاربرد شبکه عصبی چند لایه پرسپترون MLP در دسته بندی مستندات نیمه ساخته یافته XML بر روی پایگاه داده روزنامه همشهری بررسی شده و دستاوردهای آن مورد ارزیابی قرار گرفته است. البته برای دستهبندی مستندات با کارآیی بالا، دقت در شناسایی و انتخاب ویژگی- های مهم، نقش بسزایی دارد. به همین علت تمرکز بر روی تکنیکهای پیش پردازش مستندات و به گونه ویژه، روشهای وزندهی ویژگی مورد بررسی و تحلیل قرار گرفته و یکی از روشها TFCRF برای وزن دهی به مستنداتی که به عنوان ورودی شبکه عصبی مورد مطالعه است، بکار رفته است. در این مقاله برای استخراج بهترین ویژگیها از روش تجزیه و تحلیل مولفه های اصلی PCA با ارزیاب KNN استفاده شده و سپس نتایج آن با روش جداکننده خطی LDA ترکیب شده، در نهایت شبکه عصبی انتخاب شده مورد تست و ارزیابی قرار گرفته است. نتایج به دست آمده نشان داد که دقت دستهبندی متون فارسی با روش پیشنهادی به صورت قابل توجهی افزایش خواهد یافت

کلیدواژه ها

شبکه عصبی چند لایه پرسپترون، دسته بندی متون، وزندهی ویژگی، مستندات نیمه ساخت یافته

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.