بررسی انواع روش های تشخیص موضوع از داده های متنی
- سال انتشار: 1400
- محل انتشار: چهارمین همایش ملی فناوریهای نوین در مهندسی برق، کامپیوتر و مکانیک ایران
- کد COI اختصاصی: STCONF04_261
- زبان مقاله: فارسی
- تعداد مشاهده: 1097
نویسندگان
دانشجوی ارشد مهندسی نرم افزار دانشگاه علم و صنعت ایران
استاد گروه مهندسی کامپیوتر، دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران
چکیده
امروزه، با توسعه سریع فناو ری اطلاعات و استفاده گسترده از آن، اینترنت به عنوان یک حامل اطلاعات، به تدریج جایگزین رسانه های سنتی مانند روزنامه و تلویزیون شده است. داده های تولیدشده در اینترنت توسط افراد به صورت نمایی در حال افزایش است. در مواجهه با این حجم از داده ها که بخش قابل توجهی از آن را داده های متنی تشکیل می دهند، پردازش و چگونگی استخراج اطلاعات به یک نگرانی عمومی تبدیل شد هاست. تشخیص موضوع متون می تواند راهی برای درک و مدیریت کلان داده های انباشته شده در اختیار ما قرار دهد. تشخیص موضوع، فرایند گشت و گذار کاربر را نیز در این فضای پیچیده، راحت تر می کند. بنابراین یکی از چالش های موجود در فضای کلان داده طبقه بندی موضوعی داده های متنی است. فراین د تشخیص موضوع، بر کشف موضوعاتی که مجموع های از اسناد به آنها پرداخته اند متمرکز شده است، به طوری که از موضوعات تعریف شده انتظار می رود که از نظر موضوعی مشابه، منسجم و خودمحور باشند. فرایند تشخیص موضوع به صورتدستی، امری زمان بر و خسته کننده است و با توجه به افزایش حجم و تنوع اسناد بدون برچسب در اینترنت، به امری غیرممکن برای انسان تبدیل شده است. بنابراین، فرایند تشخیص موضوع از متن به صورت خودکار و کارآمد به امری مهم و حیاتی در دنیای اینترنت تبدیل شده است. برای تشخیص موضوع اسناد روش های زیادی معرفی شده اند و مطالعات زیادی در این زمینه وجود دارد، بنابراین ما در این مقاله می خواهیم بعد از معرفی یک چهارچوب مناسب برای تشخیص موضوع اسناد، به بررسی انواع روش های تشخیص موضوع بپردازیم. ما مطالعات انجام شده را بر اساس روش کارکرد دسته بندی کردیم و سپس مزایا و معایب هر دسته را مورد بررسی قرار دادیم.کلیدواژه ها
متن کاوی، پردازش زبان طبیعی، تشخیص موضوع، کشف موضوع، مدل سازی موضوعیمقالات مرتبط جدید
- مدلسازی و شبیه سازی جبران ساز سری سنکرون استاتیکی توزیع برای حل چالش های شبکه توزیع بر پایه الگوریتم بهینه سازی گرگ خاکستری
- Adaptive Control Strategies for Fast Charging of EVs with Battery Degradation Mitigation
- شناسایی مانع با استفاده از دید استریو برای خودروهای بدون سرنشین
- Multi-Gbest Decomposition for Many-Objective Optimization
- ترکیب منابع انرژی پیزوالکتریک و ترموالکتریک به منظور افزایش کارایی سیستم های برداشت انرژی
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.