استفاده ازخوشه بندی های n-gram و K-means برای طبقه بندی داده های گزارش های متن آزاد مغز استخوان

سال انتشار: 1403
محل انتشار: نوزدهمین کنفرانس ملی پژوهش های کاربردی در علوم برق ،کامپیوتر و مهندسی پزشکی
کد COI اختصاصی: ECMECONF19_021
زبان مقاله: فارسی
تعداد مشاهده: 238

نویسندگان

هیئت علمی دانشگاه آزاد اسلامی واحد استهبان

دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد استهبان

چکیده

پردازش زبان طبیعی (NLP)برای استخراج اطلاعات و خلاصه کردن گزارش های پزشکی استفاده شده است. در حال حاضر، پیشرفته ترین مدل های NLP به مجموعه داده های آموزشی بزرگی از متون پزشکی با برچسب دقیق نیاز دارند. یک رویکرد برای ایجاد این مجموعه داده های بزرگ استفاده از الگوریتم های کلاسیک NLP با منابع کم است. در این مقاله، ما بررسی کردیم که چگونه یک الگوریتم کلاسیک خودکار NLP قادر به طبقه بندی بخش هایی از متن گزارش مغز استخوان در بخش های مناسب آنها است. در مجموع ۱۴۸۰ گزارش مغز استخوان از سیستم اطلاعات آزمایشگاهی یک شبکه مراقبت های بهداشتی عالی استخراج شد. متن آزاد این گزارش های مغز استخوان با جداسازی گزارش ها به بلوک های متنی و سپس حذف سرصفحه های بخش، پیش پردازش شد. یک الگوریتم پردازش زبان طبیعی شامل خوشه بندی n-gram و K-means برای طبقه بندی بلوک های متنی در بخش های مناسب مغز استخوان استفاده شد. تاثیر جایگزینی مقادیر عددی توکن ، شماره های ورود، و خوشه های متمایز، تغییر تعداد مرکز (۱۹-۱) و n-gram (۱-۵)، با استفاده از یک الگوریتم گروهی مورد ارزیابی قرار گرفت. مدل بهینه NLP با به کارگیری یک الگوریتم گروهی که از جایگزینی توکن، ۱-gram یا کیسه کلمات و ۱۰ مرکز برای خوشه بندی K-means استفاده می کرد، یافت شد. این مدل بهینه قادر به طبقه بندی بلوک های متنی با دقت ۸۹ درصد بود که نشان می دهد مدل های NLP کلاسیک می توانند به طور دقیق بخش هایی از متن گزارش مغز را طبقه بندی کنند.پردازش زبان طبیعی (NLP) زمینه ای از علوم کامپیوتر است که هدف آن استفاده از الگوریتم های کامپیوتری برای تجزیه و تحلیل زبان به روشی شبیه انسان استNLP.برای خلاصه و تفسیر گزارش های تشخیص پزشکی مفید است. در رادیولوژی، الگوریتم های رایانه ای مختلف مانند Word۲Vec، n-gram، کیسه کلمات پیوسته و ترانسفورماتورها برای وظایفی مثل طبقه بندی بیماری، ایجاد گروه هایی برای مطالعات تحقیقاتی و ارزیابی انطباق اسکن ها با دستورالعمل های ایمنی مورد مطالعه قرار گرفته اند.)مروری بر ۱،۲)

کلیدواژه ها

آسیب شناسی هماتولوژیک مغز استخوان ،خوشه بندی k-means ، یادگیری ماشین ، پردازش زبان طبیعی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.