بهبود الگوریتم فازی C-Means با الگوریتم ژنتیک برای انتخاب ویژگی‎ها در دسته بندی اسناد متنی

  • سال انتشار: 1398
  • محل انتشار: مجله علوم رایانشی، دوره: 4، شماره: 1
  • کد COI اختصاصی: JR_CSJI-4-1_006
  • زبان مقاله: فارسی
  • تعداد مشاهده: 66
دانلود فایل این مقاله

نویسندگان

ندا محمودی جاریحان

مربی، گروه مهندسی کامپیوتر، واحد ارومیه، دانشگاه آزاد اسلامی، ارومیه، ایران

فرهاد سلیمانیان قره چپق

استادیار، گروه مهندسی کامپیوتر، واحد ارومیه، دانشگاه آزاد اسلامی، ارومیه، ایران

چکیده

افزایش روزافزون مستندات الکترونیکی در وب، لزوم دسته بندی آنان در دسته های مختلف را نشان می دهد. با توجه به حجم و دامنه وسیع اسناد متنی که به طور قابل توجهی از طریق محیط های برخط و سایر منابع قابل دسترسی می‎باشند، در صورت عدم دسته بندی مناسب، عمل بازیابی و پردازش اسناد متنی دسته بندی نشده با مشکلات زیادی مواجه می گردد. این نیاز منجر به ایجاد روش های نوین برای دسته بندی اطلاعات شده است. دسته بندی، تخصیص اسناد متنی یا ویژگی ها به یک یا چندین دسته است، به طوری که اسناد متنی با توجه به موضوعات یا میزان مشابهت ویژگی‎ها می‎توانند دسته بندی گردند. در ارائه روش های دسته‎بندی، استخراج و انتخاب ویژگی های کلیدی اسناد متنی از اهمیت بالایی برخودار می‎باشد. در این مقاله روشی براساس بهبود الگوریتم فازی C-Means با الگوریتم ژنتیک برای انتخاب ویژگی ها در دستهبندی اسناد متنی ارائه شده است که در روش پیشنهادی انتخاب ویژگی های کلیدی متون از طریق الگوریتم فازی C-Means انجام می‎شود و این ویژگی‎ها به الگوریتم ژنتیک جهت بهبود در دستهبندی ارسال میگردند. روش پیشنهادی بر روی سه مجموعهداده‎ی مختلف Reuters۲۱۵۷۸, WEBKB, CADE ۱۲ و بر اساس معیارهای ارزیابی مختلفی مورد آزمایش و ارزیابی قرار گرفته است. مقایسه‎ی نتایج روش پیشنهادی با سایر روش های مطرح در دستهبندی متون نشان می‎دهد که روش پیشنهادی عملکرد بهینهای را در دستهبندی اسناد متنی دارد.

کلیدواژه ها

دسته بندی اسناد متنی, بهینه سازی, انتخاب ویژگی, الگوریتم فازی Means-C, الگوریتم ژنتیک

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.