CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بررسی معماری سیستم های متن کاوی

عنوان مقاله: بررسی معماری سیستم های متن کاوی
شناسه ملی مقاله: CECCONF15_008
منتشر شده در پانزدهمین کنفرانس علوم و مهندسی کامپیوتر و فناوری اطلاعات در سال 1401
مشخصات نویسندگان مقاله:

علی سرآبادانی - دانشجوی دکترای مهندسی فناوری اطلاعات (IT) دانشگاه قم
مصطفی حاتمی کاسوایی - کارشناسی ارشد مهندسی کامپیوتر دانشگاه صنعتی مالک اشتر

خلاصه مقاله:
متن کاوی اصطلاحی است که به فرایند تحلیل و کاوش متن، نسبت داده می شود.داده ها انواع مختلفی دارند. برخی به شکل اعداد، تصویر، صوت و برخی هم به صورت متن هستند. طبق گزارشی ۸۰ درصد داده های موجود در سراسر دنیا به صورت متن هستند. هر روز که شما متنی را می نویسیم و در دنیای وب منتشرش می کنیم، در واقع به داده های موجود داده ای دیگر اضافه می کنیم. در نتیجه حجم داده های موجود در وب روز به روز در حال افزایش است. ذخیره سازی، پردازش و تحلیل این حجم از اطلاعات تبدیل به چالشی شده است. سازمان های مختلفی وجود دارند که داده های متنی بسیاری را تولید می کنند.با تکنیک های متن کاوی می توانید داده های متنی را بررسی و تحلیل کنیم و از نتایج حاصل از این تحلیل اطلاعات ارزشمندی کسب نماییم. در واقع داده های متنی هیچ گونه ارزشی ندارند مگر اینکه متن کاوی شوند. متن کاوی به شناسایی الگوها، کلمات کلیدی، موضوعات و دیگر ویژگی های موجود در متن می پردازد. در این مقاله قصد داریم معماری سیستم های متن کاوی را به طور دقیق بررسی کنیم.

کلمات کلیدی:
متن کاوی، رده بندی، کاوش دانش متن، تحلیل نحوی، پیش پردازش، استاندارد کردن اسناد

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1455230/