Enhancing Text Extraction from Scanned Medical Documents Using Large Language Models
محل انتشار: سومین سمینار تخصصی علم داده ها و کاربردهای آن
سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 117
نسخه کامل این مقاله ارائه نشده است و در دسترس نمی باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
DSAS03_050
تاریخ نمایه سازی: 20 دی 1403
چکیده مقاله:
Accurate text extraction from scanned medical documents is essential for data management and clinical decision-making. This study evaluates Large Language Models (LLMs) as an enhancement to traditional Optical Character Recognition (OCR) methods. By leveraging language and context, LLMs offer improved accuracy and relevance in text interpretation. We compared the EasyOCR model and the multimodal "gpt-۴o-mini" LLM on a dataset of ۱۱۰ medical transcript samples. Performance was assessed by comparing extracted texts against clinical data embeddings, using cosine similarity for semantic accuracy. The OCR model achieved an F۱-score of ۰.۵۹, while the LLM scored ۰.۷۰, demonstrating LLMs' potential to advance text extraction in healthcare.
کلیدواژه ها:
نویسندگان