| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 1.77 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
This dissertation explores state-of-the-art deep learning models for document retrieval
in biomedical research, using the Exposome-Explorer database as a case study, which
contains manually curated entries on biomarkers of exposure to environmental risk factors
for various diseases. Previous works have employed simple machine learning algorithms
to reduce expert workload by enhancing the accuracy and efficiency of document retrieval.
In this dissertation traditional document retrieval methods, such as BM25, are evaluated
alongside transformer models like MonoBERT, DistilBERT, and PubMedBERT, to assess
their suitability for the task.
Results demonstrate that PubMedBERT, pre-trained on biomedical text, offers the
best performance in retrieving relevant documents, with BM25 contributing significantly
to initial dataset refinement. However, challenges such as curated data variability and
variability in precision and recall persist, particularly with smaller datasets for which
fewer training examples are available like pollutant biomarkers.
This research represents a step forward in automating and refining the curation of
biomedical databases, ensuring faster and more reliable results. Future work will involve
applying the trained models to the latest version of the Exposome-Explorer database and
enhancing BM25 with RM3 query expansion for improved document ranking. Additional
optimization of the models will be explored to address performance variability and
improve overall retrieval accuracy across different biomarker datasets.
Esta dissertação explora modelos de deep learning de última geração para a recuperação de documentos em investigação biomédica, utilizando a base de dados Exposome-Explorer como caso de estudo, a qual contém entradas manualmente curadas sobre biomarcadores de exposição a fatores de risco ambientais para várias doenças. Trabalhos anteriores utilizaram algoritmos simples de machine learning para reduzir a carga de trabalho dos especialistas, melhorando a precisão e eficiência da obtenção de documentos. Nesta dissertação, são avaliados métodos tradicionais de obtenção de documentos, como o BM25, juntamente com modelos de transformadores como MonoBERT, DistilBERT e PubMedBERT, para avaliar a sua adequação para a tarefa. Os resultados demonstram que o PubMedBERT, pré-treinado em texto biomédico, oferece o melhor desempenho na obtenção de documentos relevantes, com o BM25 a contribuir significativamente para o refinamento inicial do conjunto de dados. No entanto, persistem desafios como a variabilidade dos dados e a variabilidade na precisão e recall, particularmente em conjuntos de dados menores, para os quais estão disponíveis menos exemplos de treino, como os biomarcadores de poluentes. Esta investigação representa um avanço na automatização e aperfeiçoamento da cu- radoria de bases de dados biomédicas, garantindo resultados mais rápidos e fiáveis. Trabalhos futuros irão envolver a aplicação dos modelos treinados na versão mais recente da base de dados Exposome-Explorer e a melhoria do BM25 com expansão de consultas RM3 para um melhor ranking de documentos. Serão exploradas otimizações adicionais dos modelos para enfrentar a variabilidade de desempenho e melhorar a precisão geral da recuperação em diferentes conjuntos de dados de biomarcadores.
Esta dissertação explora modelos de deep learning de última geração para a recuperação de documentos em investigação biomédica, utilizando a base de dados Exposome-Explorer como caso de estudo, a qual contém entradas manualmente curadas sobre biomarcadores de exposição a fatores de risco ambientais para várias doenças. Trabalhos anteriores utilizaram algoritmos simples de machine learning para reduzir a carga de trabalho dos especialistas, melhorando a precisão e eficiência da obtenção de documentos. Nesta dissertação, são avaliados métodos tradicionais de obtenção de documentos, como o BM25, juntamente com modelos de transformadores como MonoBERT, DistilBERT e PubMedBERT, para avaliar a sua adequação para a tarefa. Os resultados demonstram que o PubMedBERT, pré-treinado em texto biomédico, oferece o melhor desempenho na obtenção de documentos relevantes, com o BM25 a contribuir significativamente para o refinamento inicial do conjunto de dados. No entanto, persistem desafios como a variabilidade dos dados e a variabilidade na precisão e recall, particularmente em conjuntos de dados menores, para os quais estão disponíveis menos exemplos de treino, como os biomarcadores de poluentes. Esta investigação representa um avanço na automatização e aperfeiçoamento da cu- radoria de bases de dados biomédicas, garantindo resultados mais rápidos e fiáveis. Trabalhos futuros irão envolver a aplicação dos modelos treinados na versão mais recente da base de dados Exposome-Explorer e a melhoria do BM25 com expansão de consultas RM3 para um melhor ranking de documentos. Serão exploradas otimizações adicionais dos modelos para enfrentar a variabilidade de desempenho e melhorar a precisão geral da recuperação em diferentes conjuntos de dados de biomarcadores.
Descrição
Palavras-chave
DEEP LEARNING DOCUMENT RETRIEVAL DATABASE CURATION BIOMEDICAL LITERATURE INFORMATION RETRIEVAL
