Utilize este identificador para referenciar este registo: http://hdl.handle.net/10362/177268
Título: Synple: A Tool for Synthetic Patients Generation Through Machine Learning
Autor: Veladas, Francisco Morgado
Orientador: Gamboa, Hugo
Silva, Luís
Palavras-chave: Synthetic Data
Health Data Privacy
European Population Demographics
Machine Learning
Synthetic Patient
Data de Defesa: Mai-2024
Resumo: Regulatory frameworks such as General Data Protection Regulation (GDPR) and Health Insurance Portability and Accountability Act (HIPAA) have tightened constraints on patient data collection due to concerns over confidentiality, privacy, and accessibility. Synthetic Data Generation (SDG) has been proposed as an effective way to address these challenges, despite the lack of platforms suitable for Europeans. In response, this thesis introduces a platform aimed at generating synthetic patients, encompassing both Synthetic Data (SD) and the creation of comprehensive synthetic personas, with a particular focus on European populations. The method involves the development of a web application, underpinned by a Python script on the backend capable of producing not only synthetic patient data but also detailed life stories and visual representations that adhere to the generated information. To assess the quality of the synthetic data produced, statistical tests were employed, while System Usability Scale (SUS) surveys were utilized to evaluate the platform’s usability. The findings indicate successful generation of the intended dimensions with no signif- icant statistical differences between the SD and Real Data (RD), except in specific instances such as total cholesterol (minimum p-value of 0.013) and HDL cholesterol (minimum p-value of 0.012) values, for various age groups, LDL cholesterol values (p-value of 0.045), and hemoglobin values (p-value of 0.036). The SUS surveys yielded a score of 87.5 ± 4.2, reflecting excellent usability of the platform. Concluding, this thesis lays the groundwork for a powerful tool in healthcare research aimed at surmounting the challenges of data accessibility. It presents a robust source of synthetic data that maintains the statistical integrity and behavioral realism of actual patient data, thus offering a significant contribution to overcoming the limitations imposed by privacy and confidentiality concerns in healthcare data collection.
Quadros regulamentares como o General Data Protection Regulation (GDPR) e o Health Insurance Portability and Accountability Act (HIPAA) reforçaram as restrições à recolha de dados dos doentes devido a preocupações com a confidencialidade, a privacidade e a acessibilidade. O SDG foi proposto como uma forma eficaz de enfrentar estes desafios, apesar da falta de plataformas adequadas para os europeus. Em resposta, esta tese apresenta uma plataforma destinada a gerar pacientes sintéticos, englobando tanto o SD como a criação de personas sintéticas abrangentes, com um enfoque particular nas populações europeias. O método envolve o desenvolvimento de uma aplicação Web, sustentada por um script Python no backend capaz de produzir não só dados sintéticos de doentes, mas também histórias de vida detalhadas e representações visuais que aderem à informação gerada. Para avaliar a qualidade dos dados sintéticos produzidos, foram utilizados testes estatísticos, enquanto os inquéritos SUS foram utilizados para avaliar a usabilidade da plataforma. Os resultados indicam uma geração bem sucedida das dimensões pretendidas, sem diferenças estatísticas significativas entre o SD e o RD, exceto em casos específicos como o colesterol total (p-value mínimo de 0. 013) e valores de colesterol HDL (p-value mínimo de 0,012), para vários grupos etários, valores de colesterol LDL (p-value de 0,045) e valores de hemoglobina (p-value de 0,036). Os inquéritos SUS produziram uma pontuação de 87, 5 ± 4, 2, reflectindo uma excelente usabilidade da plataforma. Concluindo, esta tese estabelece as bases para uma ferramenta poderosa na investigação em cuidados de saúde, destinada a ultrapassar os desafios da acessibilidade dos dados. Esta apresenta uma fonte robusta de dados sintéticos que mantém a integridade estatística e o realismo comportamental dos dados reais dos doentes, oferecendo assim um contributo significativo para ultrapassar as limitações impostas pelas preocupações com a privacidade e a confidencialidade na recolha de dados de cuidados de saúde.
URI: http://hdl.handle.net/10362/177268
Designação: MASTER IN BIOMEDICAL ENGINEERING
Aparece nas colecções:FCT: DF - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Veladas_2024.pdf4,24 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.