BIOMEDICAL DOCUMENT RETRIEVAL FOR DATABASE CURATION

Ramos, Diogo Luís Embaixador

http://hdl.handle.net/10362/182368

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Ramos_2024.pdf		1.77 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Ramos, Diogo Luís Embaixador

Orientador(es)

Lamúrias, André

Resumo(s)

This dissertation explores state-of-the-art deep learning models for document retrieval in biomedical research, using the Exposome-Explorer database as a case study, which contains manually curated entries on biomarkers of exposure to environmental risk factors for various diseases. Previous works have employed simple machine learning algorithms to reduce expert workload by enhancing the accuracy and efficiency of document retrieval. In this dissertation traditional document retrieval methods, such as BM25, are evaluated alongside transformer models like MonoBERT, DistilBERT, and PubMedBERT, to assess their suitability for the task. Results demonstrate that PubMedBERT, pre-trained on biomedical text, offers the best performance in retrieving relevant documents, with BM25 contributing significantly to initial dataset refinement. However, challenges such as curated data variability and variability in precision and recall persist, particularly with smaller datasets for which fewer training examples are available like pollutant biomarkers. This research represents a step forward in automating and refining the curation of biomedical databases, ensuring faster and more reliable results. Future work will involve applying the trained models to the latest version of the Exposome-Explorer database and enhancing BM25 with RM3 query expansion for improved document ranking. Additional optimization of the models will be explored to address performance variability and improve overall retrieval accuracy across different biomarker datasets.

Esta dissertação explora modelos de deep learning de última geração para a recuperação de documentos em investigação biomédica, utilizando a base de dados Exposome-Explorer como caso de estudo, a qual contém entradas manualmente curadas sobre biomarcadores de exposição a fatores de risco ambientais para várias doenças. Trabalhos anteriores utilizaram algoritmos simples de machine learning para reduzir a carga de trabalho dos especialistas, melhorando a precisão e eficiência da obtenção de documentos. Nesta dissertação, são avaliados métodos tradicionais de obtenção de documentos, como o BM25, juntamente com modelos de transformadores como MonoBERT, DistilBERT e PubMedBERT, para avaliar a sua adequação para a tarefa. Os resultados demonstram que o PubMedBERT, pré-treinado em texto biomédico, oferece o melhor desempenho na obtenção de documentos relevantes, com o BM25 a contribuir significativamente para o refinamento inicial do conjunto de dados. No entanto, persistem desafios como a variabilidade dos dados e a variabilidade na precisão e recall, particularmente em conjuntos de dados menores, para os quais estão disponíveis menos exemplos de treino, como os biomarcadores de poluentes. Esta investigação representa um avanço na automatização e aperfeiçoamento da cu- radoria de bases de dados biomédicas, garantindo resultados mais rápidos e fiáveis. Trabalhos futuros irão envolver a aplicação dos modelos treinados na versão mais recente da base de dados Exposome-Explorer e a melhoria do BM25 com expansão de consultas RM3 para um melhor ranking de documentos. Serão exploradas otimizações adicionais dos modelos para enfrentar a variabilidade de desempenho e melhorar a precisão geral da recuperação em diferentes conjuntos de dados de biomarcadores.

Palavras-chave

DEEP LEARNING DOCUMENT RETRIEVAL DATABASE CURATION BIOMEDICAL LITERATURE INFORMATION RETRIEVAL

URI

http://hdl.handle.net/10362/182368

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo