بررسی معماری سیستم های متن کاوی

  • سال انتشار: 1401
  • محل انتشار: پانزدهمین کنفرانس علوم و مهندسی کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: CECCONF15_008
  • زبان مقاله: فارسی
  • تعداد مشاهده: 425
دانلود فایل این مقاله

نویسندگان

علی سرآبادانی

دانشجوی دکترای مهندسی فناوری اطلاعات (IT) دانشگاه قم

مصطفی حاتمی کاسوایی

کارشناسی ارشد مهندسی کامپیوتر دانشگاه صنعتی مالک اشتر

چکیده

متن کاوی اصطلاحی است که به فرایند تحلیل و کاوش متن، نسبت داده می شود.داده ها انواع مختلفی دارند. برخی به شکل اعداد، تصویر، صوت و برخی هم به صورت متن هستند. طبق گزارشی ۸۰ درصد داده های موجود در سراسر دنیا به صورت متن هستند. هر روز که شما متنی را می نویسیم و در دنیای وب منتشرش می کنیم، در واقع به داده های موجود داده ای دیگر اضافه می کنیم. در نتیجه حجم داده های موجود در وب روز به روز در حال افزایش است. ذخیره سازی، پردازش و تحلیل این حجم از اطلاعات تبدیل به چالشی شده است. سازمان های مختلفی وجود دارند که داده های متنی بسیاری را تولید می کنند.با تکنیک های متن کاوی می توانید داده های متنی را بررسی و تحلیل کنیم و از نتایج حاصل از این تحلیل اطلاعات ارزشمندی کسب نماییم. در واقع داده های متنی هیچ گونه ارزشی ندارند مگر اینکه متن کاوی شوند. متن کاوی به شناسایی الگوها، کلمات کلیدی، موضوعات و دیگر ویژگی های موجود در متن می پردازد. در این مقاله قصد داریم معماری سیستم های متن کاوی را به طور دقیق بررسی کنیم.

کلیدواژه ها

متن کاوی، رده بندی، کاوش دانش متن، تحلیل نحوی، پیش پردازش، استاندارد کردن اسناد

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.