بررسی انواع روش های تشخیص موضوع از داده های متنی

  • سال انتشار: 1400
  • محل انتشار: چهارمین همایش ملی فناوریهای نوین در مهندسی برق، کامپیوتر و مکانیک ایران
  • کد COI اختصاصی: STCONF04_261
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1042
دانلود فایل این مقاله

نویسندگان

محمد نظری

دانشجوی ارشد مهندسی نرم افزار دانشگاه علم و صنعت ایران

حسین رحمانی

استاد گروه مهندسی کامپیوتر، دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران

چکیده

امروزه، با توسعه سریع فناو ری اطلاعات و استفاده گسترده از آن، اینترنت به عنوان یک حامل اطلاعات، به تدریج جایگزین رسانه های سنتی مانند روزنامه و تلویزیون شده است. داده های تولیدشده در اینترنت توسط افراد به صورت نمایی در حال افزایش است. در مواجهه با این حجم از داده ها که بخش قابل توجهی از آن را داده های متنی تشکیل می دهند، پردازش و چگونگی استخراج اطلاعات به یک نگرانی عمومی تبدیل شد هاست. تشخیص موضوع متون می تواند راهی برای درک و مدیریت کلان داده های انباشته شده در اختیار ما قرار دهد. تشخیص موضوع، فرایند گشت و گذار کاربر را نیز در این فضای پیچیده، راحت تر می کند. بنابراین یکی از چالش های موجود در فضای کلان داده طبقه بندی موضوعی داده های متنی است. فراین د تشخیص موضوع، بر کشف موضوعاتی که مجموع های از اسناد به آنها پرداخته اند متمرکز شده است، به طوری که از موضوعات تعریف شده انتظار می رود که از نظر موضوعی مشابه، منسجم و خودمحور باشند. فرایند تشخیص موضوع به صورتدستی، امری زمان بر و خسته کننده است و با توجه به افزایش حجم و تنوع اسناد بدون برچسب در اینترنت، به امری غیرممکن برای انسان تبدیل شده است. بنابراین، فرایند تشخیص موضوع از متن به صورت خودکار و کارآمد به امری مهم و حیاتی در دنیای اینترنت تبدیل شده است. برای تشخیص موضوع اسناد روش های زیادی معرفی شده اند و مطالعات زیادی در این زمینه وجود دارد، بنابراین ما در این مقاله می خواهیم بعد از معرفی یک چهارچوب مناسب برای تشخیص موضوع اسناد، به بررسی انواع روش های تشخیص موضوع بپردازیم. ما مطالعات انجام شده را بر اساس روش کارکرد دسته بندی کردیم و سپس مزایا و معایب هر دسته را مورد بررسی قرار دادیم.

کلیدواژه ها

متن کاوی، پردازش زبان طبیعی، تشخیص موضوع، کشف موضوع، مدل سازی موضوعی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.