خوشه بندی اسناد با استفاده از روش کار مبتنی بر افزار داده ها

  • سال انتشار: 1395
  • محل انتشار: اولین همایش ملی فناوری اطلاعات، ارتباطات و محاسبات نرم
  • کد COI اختصاصی: ITCSC01_071
  • زبان مقاله: فارسی
  • تعداد مشاهده: 524
دانلود فایل این مقاله

نویسندگان

سیده نوشین اخوندی

کارشناسی ارشد دانشکده فنی مهندسی دانشگاه آزاد اسلامی علوم و تحقیقات تهران البرز

مجید خلیلیان

استادیار دانشکده فنی و مهندسی دانشگاه آزاد اسلامی کرج

چکیده

بازیابی متون به فن آوری جستجو و استخراج اطلاعات از مجموعه اسناد متنی گفته می شود. طبقه بندی داده های متنی به عنوان یکی از روشها در این راستا می باشد که همراه با چالشهای از قبیل پیچیدگی داده ها، بزرگی چه از نظر تعداد چه از نظر ابعاد و همچنین وجود ساختار سلسله مراتبی برای اکثر داده ای متنی می باشد. برای غلبه بر این مشکلات نیاز به روشهایی است که ضمن برطرف نمودن مشکلات مذکور دقت طبقه بندی را نیز افزایش دهد. در این تحقیق ضمن پیش پردازش داده های متنی و تبدیل آن به ماتریسهای عددی از یک روش دو مرحله ای مبتنی بر افزار بندی برای غلبه بر مشکلات مذکور در داده های متنی استفده شده است نتایج بدست آمده از اجرای این روش بر روی مجموعه داده متنی در مقایسه با روشهای افرازبندی و سلسله مراتبی اجرا شده و بر روی داده های متنی حای از آن است که دقت طبقه بندی متون نسبت به الگوریتمهای مورد مقایسه افزایش یافته است.

کلیدواژه ها

الگوریتم k-means خوشه بندی، روش تقسیم و غلبه، روش افزار بندی، مدل فضای برداری

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.