استفاده ازخوشه بندی های n-gram و K-means برای طبقه بندی داده های گزارش های متن آزاد مغز استخوان

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 96

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ECMECONF19_021

تاریخ نمایه سازی: 18 تیر 1403

چکیده مقاله:

پردازش زبان طبیعی (NLP)برای استخراج اطلاعات و خلاصه کردن گزارش های پزشکی استفاده شده است. در حال حاضر، پیشرفته ترین مدل های NLP به مجموعه داده های آموزشی بزرگی از متون پزشکی با برچسب دقیق نیاز دارند. یک رویکرد برای ایجاد این مجموعه داده های بزرگ استفاده از الگوریتم های کلاسیک NLP با منابع کم است. در این مقاله، ما بررسی کردیم که چگونه یک الگوریتم کلاسیک خودکار NLP قادر به طبقه بندی بخش هایی از متن گزارش مغز استخوان در بخش های مناسب آنها است. در مجموع ۱۴۸۰ گزارش مغز استخوان از سیستم اطلاعات آزمایشگاهی یک شبکه مراقبت های بهداشتی عالی استخراج شد. متن آزاد این گزارش های مغز استخوان با جداسازی گزارش ها به بلوک های متنی و سپس حذف سرصفحه های بخش، پیش پردازش شد. یک الگوریتم پردازش زبان طبیعی شامل خوشه بندی n-gram و K-means برای طبقه بندی بلوک های متنی در بخش های مناسب مغز استخوان استفاده شد. تاثیر جایگزینی مقادیر عددی توکن ، شماره های ورود، و خوشه های متمایز، تغییر تعداد مرکز (۱۹-۱) و n-gram (۱-۵)، با استفاده از یک الگوریتم گروهی مورد ارزیابی قرار گرفت. مدل بهینه NLP با به کارگیری یک الگوریتم گروهی که از جایگزینی توکن، ۱-gram یا کیسه کلمات و ۱۰ مرکز برای خوشه بندی K-means استفاده می کرد، یافت شد. این مدل بهینه قادر به طبقه بندی بلوک های متنی با دقت ۸۹ درصد بود که نشان می دهد مدل های NLP کلاسیک می توانند به طور دقیق بخش هایی از متن گزارش مغز را طبقه بندی کنند.پردازش زبان طبیعی (NLP) زمینه ای از علوم کامپیوتر است که هدف آن استفاده از الگوریتم های کامپیوتری برای تجزیه و تحلیل زبان به روشی شبیه انسان استNLP.برای خلاصه و تفسیر گزارش های تشخیص پزشکی مفید است. در رادیولوژی، الگوریتم های رایانه ای مختلف مانند Word۲Vec، n-gram، کیسه کلمات پیوسته و ترانسفورماتورها برای وظایفی مثل طبقه بندی بیماری، ایجاد گروه هایی برای مطالعات تحقیقاتی و ارزیابی انطباق اسکن ها با دستورالعمل های ایمنی مورد مطالعه قرار گرفته اند.)مروری بر ۱،۲)

کلیدواژه ها:

آسیب شناسی هماتولوژیک مغز استخوان ، خوشه بندی k-means ، یادگیری ماشین ، پردازش زبان طبیعی

نویسندگان

هادی ناصری

هیئت علمی دانشگاه آزاد اسلامی واحد استهبان

اسما ایزدی مزیدی

دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد استهبان