دسته بندی خودکار متون با استفاده از تکنیک های داده کاوی

  • سال انتشار: 1392
  • محل انتشار: دومین همایش ملی کامپیوتر
  • کد COI اختصاصی: NCCOS02_017
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1200
دانلود فایل این مقاله

نویسندگان

محمد بهروزیان نژاد

دانشگاه آزاد اسلامی واحد علوم و تحقیقات کرمان، گروه کامپیوتر، کرمان، ایران

ایمان عطارزاده

دانشگاه آزاد اسلامی واحد دزفول، گروه کامپیوتر، دزفول، ایران

مهدی حسین زاده

دانشگاه آزاد اسلامی واحد علوم و تحقیقات، گروه کامپیوتر، تهران، ایران

چکیده

داده کاوی شامل مجموعه ای از فنون است که به استخراج اطلاعات مفیدی که در انبوه داده ها به صورت مخفی و یا پنهان است، کمک می کند. دانش استخراج شده در قالب مد لها، الگوها و یا قواعدی ارائه میشود. این دانش یا اطلاعات به دست آمده میتواند ملاک تصمیم گیری های آتی، عملکردهای بعدی و یا تغییرات لازم جهت بهبود سیستم قرار گیرند. با توجه به رشد روزافزون دسترسی به اینترنت و اسناد الکترونیکی، دسته بندی خودکار متون اهمیت ویژه ای یافته است. دسته بندی متون عمل برچسب گذاری موضوعی متون بر مبنای یک مجموعه از پیش تعیین نشده میباشد. دسته بندی متون به طور کلی به دو بخش اصلی انتخاب ویژگی و الگوریتم یادگیری تقسیم می شود. در ارتباط با تکنیکهای انتخاب ویژگی و الگوریتم های یادگیری، رو شهای متنوعی ارائه شده است. هدف در تکنیکهای ارائه شده، بالا بردن دقت دسته بندی و رسیدن به کارایی مطلوب میباشد . در این مقاله مهم ترین و کاراترین تکنی کهای انتخاب ویژگی و نیز الگوریتم های یادگیری مورد تحلیل و بررسی قرار می گیرند و در نهایت پیشنهاداتی جهت استفادهبهینه تر از این تکنیکها صورت م یگیرد. با توجه به این نکته که هر کدام از رو شهای ارائه شده در کنار مزایای خود دارای معایبی نیز می باشند، بررسی این تکنیکها میتواند در ارائه تکنیکهای جدید که نقاط ضعف تکنیکهای پیشین را پوشش دهد، موثر باشد.

کلیدواژه ها

داده کاوی، دسته بندی خودکار متون، انتخاب ویژگی، الگوریتم یادگیری

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.