ارزیابی پایداری روشهای مد لسازی موضوضعی مبتنی بر معناشناسی کلمات بر استخراج موضوع از مجموعه داده های متنی پویا

  • سال انتشار: 1400
  • محل انتشار: چهارمین همایش ملی توسعه علوم فناوریهای نوین در مدیریت، حسابداری و کامپیوتر
  • کد COI اختصاصی: IVCONF04_266
  • زبان مقاله: فارسی
  • تعداد مشاهده: 390
دانلود فایل این مقاله

نویسندگان

محدثه طاهرپور

دانشجوی دکتری، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد رشت

فاطمه احمدی ابکناری

استادیار، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه پیام نور مرکز رشت

پیمان بیات

استادیار، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد رشت

چکیده

پردازش زبان طبیعی دارای دانش بسیار گسترده ای است. مدلسازی موضوعی ابزاری برای کشف ساختارهای معنایی پنهان در اسنادمتنی است. مدلهای موضوعی روش مناسبی را در خصوص تجزیه و تحلیل متن های بزرگ طبقه بندی نشده ارائه می دهند.مدلسازی موضوعی روشی برای مدلسازی معناشناسی کلمات براساس موضوع است. و ایده ی اصلی آن روش ها این است کهکلمات با معنای مشابه در اسناد مشابه وجود دارند. یک موضوع شامل مجموعه ای از کلمات است که غالبا در کنار هم وجود دارند.مدلسازی موضوعی می تواند کلمات با معانی مشابه را به هم متصل کند و بین کاربردهای کلمات با چندین معنی تفاوت قائل شود.امروزه با توجه به استفاده گسترده از متون بزرط طبقه بندی نشده در تمام حوزه ها، الزام استخراج موضوع مناسب با هدف دسته بندی بهینه ی متون بسیار به چشم می خورد. موضوعات استخراج شده باید دارای کیفیت لازم باشند. پارامترهایی که در این خصوصمی توانند کمک شایانی کنند عباتند از، انسجام و شیوع موضنوعات در متن سند. در این مقاله در ابتدا به بررسی روش هایمدلسازی موضوعی مانند، تحلیل معنایی نهفته یا LSA ، تحلیل معنایی نهفته احتمالی یا PLSA ، تخصیص پنهان دیریکله یاLDA و مدل موضوع مرتبط ۷ CTM پرداخته شده است. ویژگی ها و محدویت های هر کدام از روش ها بررسی شده و در انتهاکیفیت موضوعات ارائه شده هر روش مدلسازی با هدف پیدا کردن بهترین موضوع انتخابی و همچنین ارزیابی پایداری روش هایمختلف مورد تحلیل و بررسی قرار گرفته است. روشی پایدارتر است که موضوع ارائه شده ی انتخابی آن دارای معیارهای خوب کیفیتیباشد. نتایج بدست آمده از بررسی انواع روش های مدلسازی موضوعی بر پایگاه داده DBLP و نوع گره موضنوع مقاله و ارزیابینتایج با معیارهای ارزیابی موضوعی نشان از پایداری و تطابق روش مدلسازی CTM بر روی این پایگاه داده دارد.

کلیدواژه ها

تحلیل محتوا، تشخیص جامعه، مدل سازی موضوعی، متن کاوی، یادگیری ماشینی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.