Utilize este identificador para referenciar este registo:
                
    
    http://hdl.handle.net/10362/177268| Título: | Synple: A Tool for Synthetic Patients Generation Through Machine Learning | 
| Autor: | Veladas, Francisco Morgado | 
| Orientador: | Gamboa, Hugo Silva, Luís | 
| Palavras-chave: | Synthetic Data Health Data Privacy European Population Demographics Machine Learning Synthetic Patient | 
| Data de Defesa: | Mai-2024 | 
| Resumo: | Regulatory frameworks such as General Data Protection Regulation (GDPR) and Health
Insurance Portability and Accountability Act (HIPAA) have tightened constraints on patient
data collection due to concerns over confidentiality, privacy, and accessibility. Synthetic
Data Generation (SDG) has been proposed as an effective way to address these challenges,
despite the lack of platforms suitable for Europeans. In response, this thesis introduces
a platform aimed at generating synthetic patients, encompassing both Synthetic Data
(SD) and the creation of comprehensive synthetic personas, with a particular focus on
European populations.
The method involves the development of a web application, underpinned by a Python
script on the backend capable of producing not only synthetic patient data but also detailed
life stories and visual representations that adhere to the generated information. To assess
the quality of the synthetic data produced, statistical tests were employed, while System
Usability Scale (SUS) surveys were utilized to evaluate the platform’s usability.
The findings indicate successful generation of the intended dimensions with no signif-
icant statistical differences between the SD and Real Data (RD), except in specific instances
such as total cholesterol (minimum p-value of 0.013) and HDL cholesterol (minimum
p-value of 0.012) values, for various age groups, LDL cholesterol values (p-value of 0.045),
and hemoglobin values (p-value of 0.036). The SUS surveys yielded a score of 87.5 ± 4.2,
reflecting excellent usability of the platform.
Concluding, this thesis lays the groundwork for a powerful tool in healthcare research
aimed at surmounting the challenges of data accessibility. It presents a robust source
of synthetic data that maintains the statistical integrity and behavioral realism of actual
patient data, thus offering a significant contribution to overcoming the limitations imposed
by privacy and confidentiality concerns in healthcare data collection. Quadros regulamentares como o General Data Protection Regulation (GDPR) e o Health Insurance Portability and Accountability Act (HIPAA) reforçaram as restrições à recolha de dados dos doentes devido a preocupações com a confidencialidade, a privacidade e a acessibilidade. O SDG foi proposto como uma forma eficaz de enfrentar estes desafios, apesar da falta de plataformas adequadas para os europeus. Em resposta, esta tese apresenta uma plataforma destinada a gerar pacientes sintéticos, englobando tanto o SD como a criação de personas sintéticas abrangentes, com um enfoque particular nas populações europeias. O método envolve o desenvolvimento de uma aplicação Web, sustentada por um script Python no backend capaz de produzir não só dados sintéticos de doentes, mas também histórias de vida detalhadas e representações visuais que aderem à informação gerada. Para avaliar a qualidade dos dados sintéticos produzidos, foram utilizados testes estatísticos, enquanto os inquéritos SUS foram utilizados para avaliar a usabilidade da plataforma. Os resultados indicam uma geração bem sucedida das dimensões pretendidas, sem diferenças estatísticas significativas entre o SD e o RD, exceto em casos específicos como o colesterol total (p-value mínimo de 0. 013) e valores de colesterol HDL (p-value mínimo de 0,012), para vários grupos etários, valores de colesterol LDL (p-value de 0,045) e valores de hemoglobina (p-value de 0,036). Os inquéritos SUS produziram uma pontuação de 87, 5 ± 4, 2, reflectindo uma excelente usabilidade da plataforma. Concluindo, esta tese estabelece as bases para uma ferramenta poderosa na investigação em cuidados de saúde, destinada a ultrapassar os desafios da acessibilidade dos dados. Esta apresenta uma fonte robusta de dados sintéticos que mantém a integridade estatística e o realismo comportamental dos dados reais dos doentes, oferecendo assim um contributo significativo para ultrapassar as limitações impostas pelas preocupações com a privacidade e a confidencialidade na recolha de dados de cuidados de saúde. | 
| URI: | http://hdl.handle.net/10362/177268 | 
| Designação: | MASTER IN BIOMEDICAL ENGINEERING | 
| Aparece nas colecções: | FCT: DF - Dissertações de Mestrado | 
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Veladas_2024.pdf | 4,24 MB | Adobe PDF | Ver/Abrir | 
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.











