Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10362/157139| Título: | Delivering Reliable AI to Clinical Contexts: Addressing the Challenge of Missing Data |
| Autor: | Curioso, Isabel de Almeida |
| Orientador: | Gamboa, Hugo |
| Palavras-chave: | Missing Data Missing Data Imputation Correlation Machine Learning Decision Support System |
| Data de Defesa: | Dez-2022 |
| Resumo: | Clinical data are essential in the medical domain, ensuring quality of care and improving
decision-making. However, their heterogeneous and incomplete nature leads to an ubiquity
of data quality problems, particularly missing values. Inevitable challenges arise in
delivering reliable Decision Support Systems (DSSs), as missing data yield negative effects
on the learning process of Machine Learning models. The interest in developing missing
value imputation strategies has been growing, in an endeavour to overcome this issue.
This dissertation aimed to study missing data and their relationships with observed
values, and to lateremploy that information in a technique that addresses the predicaments
posed by incomplete datasets in real-world scenarios. Moreover, the concept of correlation
was explored within the context of missing value imputation, a promising but rather
overlooked approach in biomedical research.
First, a comprehensive correlational study was performed, which considered key
aspects from missing data analysis. Afterwards, the gathered knowledge was leveraged to
create three novel correlation-based imputation techniques. Thesewere not only validated
on datasets with a controlled and synthetic missingness, but also on real-world medical
datasets. Their performance was evaluated against competing imputation methods, both
traditional and state-of-the-art.
The contributions of this dissertation encompass a systematic view of theoretical concepts
regarding the analysis and handling of missing values. Additionally, an extensive
literature review concerning missing data imputation was conducted, which comprised a
comparative study of ten methods under diverse missingness conditions. The proposed
techniques exhibited similar results when compared to their competitors, sometimes
even superior in terms of imputation precision and classification performance, evaluated
through the Mean Absolute Error and the Area Under the Receiver Operating Characteristic
curve, respectively. Therefore, this dissertation corroborates the potential of correlation
to improve the robustness of DSSs to missing values, and provides answers to current
flaws shared by correlation-based imputation strategies in real-world medical problems. Dados clínicos são essenciais para assegurar cuidados médicos de qualidade e melhorar a tomada de decisões. Contudo, a sua natureza heterogénea e incompleta cria uma ubiquidade de problemas de qualidade, nomeadamente pela existência de valores em falta. Esta condição origina desafios inevitáveis para a disponibilização de Sistemas de Apoio à Decisão (SADs) fiáveis, já que dados em falta acarretam efeitos negativos no treino de modelos de Aprendizagem Automática. O interesse no desenvolvimento de estratégias de imputação de valores em falta tem vindo a crescer, num esforço para superar esta adversidade. Esta dissertação visou estudar o problema dos dados em falta através das relações que estes apresentam com os valores observados. Esta informação foi depois utilizada no desenvolvimento de técnicas para colmatar os problemas impostos por dados incompletos em cenários reais. Ademais, o conceito de correlação foi explorado no contexto da imputação de valores em falta, já que, apesar de promissor, tem vindo a ser negligenciado em investigação biomédica. Em primeiro lugar, foi realizado um estudo correlacional abrangente que contemplou aspetos fundamentais da análise de dados em falta. Posteriormente, o conhecimento recolhido foi aplicado na criação de três novas técnicas de imputação baseadas na correlação. Estas foram validadas não só em conjuntos de dados com incompletude controlada e sintética, mas também em conjuntos de dados médicos reais. O seu desempenho foi avaliado e comparado a métodos de imputação tanto tradicionais como de estado-de-arte. As contribuições desta dissertação passam pela sistematização de conceitos teóricos relativos à análise e tratamento de dados em falta. Adicionalmente, realizou-se uma extensa revisão da literatura referente à imputação de dados, que compreendeu um estudo comparativo de dez métodos sob diversas condições de incompletude. As técnicas propostas exibiram resultados semelhantes aos dos restantes métodos, por vezes até superiores em termos de precisão da imputação e de performance da classificação. Assim, esta dissertação corrobora o potencial da utilização da correlação na melhoria da robustez de SADs a dados em falta, e fornece respostas a algumas das atuais falhas partilhadas por estratégias de imputação baseadas em correlação quando aplicadas a casos médicos reais. |
| URI: | http://hdl.handle.net/10362/157139 |
| Designação: | MASTER IN BIOMEDICAL ENGINEERING |
| Aparece nas colecções: | FCT: DF - Dissertações de Mestrado |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Curioso_2022.pdf | 6,69 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.











