Clinical Language Models for Information Extraction and Predictive Tasks from Clinical Notes: Uncovering the Potential of Unstructured Clinical Data

Lopes, Ana Filipa Gonçalves

http://hdl.handle.net/10362/163653

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Lopes_2023.pdf		3.03 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Lopes, Ana Filipa Gonçalves

Orientador(es)

Gamboa, Hugo

Resumo(s)

The exponential growth of electronic health records has resulted in an unprecedented volume of unstructured clinical data. Harnessing the potential of this information requires advanced natural language processing techniques and holds immense potential for healthcare improvement. This dissertation explores the potentialities of clinical language models in extracting and organizing the information from clinical text, and aims to measure the impact of such information in a real clinical task involving the prediction of complications following Cardiothoracic Surgery. Three information extraction models were developed by fine-tuning clinical language models on a ICD-9 code classification task. The ClinicalBERT and BioGPT-based models achieved a Mean Average Precision at 10 around 0.437, outperforming a fine-tuned model from the literature. These models were later applied to extract ICD-9 codes from translated Portuguese clinical notes. The retrieved variables were proven to benefit machine learning models trained to predict post-surgery complications, as their accuracy improved in up to 30% relative to a baseline model not trained with this information, when the information extracted from clinical text was added, achieving values of around 0.880. The results of this research solidify clinical language models as powerful tools for clinically relevant information extraction from free-text medical reports, and set the tone for the integration of these systems in clinical decision support systems, towards high performance and interpretability standards.

O crescimento exponencial dos registros de saúde eletrónicos resultou em um volume sem precedentes de dados clínicos não estruturados. Aproveitar o potencial dessas informações requer técnicas avançadas de processamento de linguagem natural e oferece promissoras melhorias na área da saúde. Esta dissertação explora as capacidades de modelos de linguagem clínica na extração e organização de informações de textos clínicos, com o objetivo de avaliar o impacto dessas informações em uma tarefa clínica tangível: a previsão de complicações após Cirurgia Cardiotorácica. Três modelos de extração de informações foram desenvolvidos através da técnica finetuning de modelos de linguagem clínica numa tarefa de classificação de códigos ICD-9. Modelos baseados nos state-of-the-art ClinicalBERT e BioGPT alcançaram MAP@10 por volta de 0.437, superando um modelo da literatura. Posteriormente, esses modelos foram aplicados para extrair códigos ICD-9 de notas clínicas traduzidas para Portugues. As variáveis adquiridas mostraram-se favoraveis para modelos de aprendizagem automática treinados para prever complicações pós-cirúrgicas. A accuracy desses modelos melhorou em até 30% em relação a um modelo base não treinado com essas informações, quando as informações extraídas de textos clínicos foram incorporadas, atingindo valores em torno de 0,880. Os resultados desta pesquisa confirmam os modelos de linguagem clínica como ferramentas poderosas para a extração de informações clinicamente relevantes de relatórios médicos em formato de texto livre. Além disso, eles preparam o terreno para a integração desses modelos em sistemas de suporte à decisão clínica, em direção a padrões de alto desempenho e interpretabilidade.

Palavras-chave

Natural Language Processing Machine Learning Clinical Language Models Electronic Health Record Clinical Notes ICD-9 code extraction Cardiothoracic Surgery

URI

http://hdl.handle.net/10362/163653

Coleções

FCT: DF - Dissertações de Mestrado

Ver registo completo