Identification of genetic drivers of colorectal cancer via bioinformatics and machine learning

Camacho, João Pedro Marques

http://hdl.handle.net/10362/151811

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Camacho_2022.pdf		6.55 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Camacho, João Pedro Marques

Orientador(es)

Lopes, Marta

Valeroso, Maria Cristina

Resumo(s)

Machine learning methods have been widely used in a range of areas within genetics and genomics, it is maybe one of the most useful tools for the interpretation of large genomic data sets and has been used to annotate and analyse a wide variety of genomic sequence elements due to its ability to analyze and learn how to extract data insights from large heterogeneous data sets. In this work, we mainly focus on identifying gene markers that are associated with an increased risk of colorectal cancer (CRC) one of the most common cancers worldwide, showing the highest mortality. In this research, we look into feature selection methods based on variant relevancy toward the development of hereditary diseases. With this approach, we aim to find rel- evant frequently occurring variants and also rare variant occurrences, this way we will identify potentially valuable disease biomarkers. We analysed 8339 different variants and determined 765 to be relevant to CRC. We will also use feature clustering methods for the identification of co-occurrence between certain genetic variants, this will allow us to identify genetic links and non-co-occurring variants that are both rare and associated with an increased risk of development of CRC. Using this method we can determine differ- ent co-occurring variant groups with an additional one being composed of independent variants. We expect the identification of these gene markers to allow for better clinical manage- ment of the patients, namely due to the identification of genetic predispositions to CRC that will allow for a better risk assessment of patients and change the type of exams to be performed and their frequency, which will have a strong impact not only on their clinical screening but also on that of their family members, this can allow for early identification of tumours or even benign lesions, therefore contributing to CRC prevention. We believe that this study will contribute to the overall understanding of CRC causes and will further advance the study of its prevention. We also expect to give insights on how to identify the biological mechanisms underlying gene variant occurrences for not only CRC but also other hereditary cancer syndromes.

Métodos de aprendizagem automática têm sido amplamente utilizados em diversas áreas dentro da genética e genômica. A aprendizagem automática é talvez uma das ferramentas mais úteis para a interpretação de grandes conjuntos de dados genômicos e tem sido usado para anotar e analisar uma ampla variedade de elementos de sequências genô- micas. A sua capacidade para analisar e aprender a extraindo informação de grandes conjuntos de dados heterogéneos. Vamos nos concentrar principalmente na identificação de marcadores genéticos que estão associados a um risco aumentado de cancro colo-retal (CCR), um dos cancros mais comuns em todo o mundo, apresentando uma das maiores mortalidades. Neste estudo, analisamos os métodos de feature selection com base na relevância da variante genética para o desenvolvimento de CCR. Com estes métodos, pretendemos en- contrar variantes relevantes que ocorrem com frequência e também variantes raras, desta forma identificaremos biomarcadores potencialmente valiosos. Analisamos 8339 varian- tes diferentes e determinamos que 765 são relevantes para o desenvolvimento de CCR. Também usaremos métodos de clustering de variantes genéticas para a identificação de correlação entre certas variantes genéticas, o que nos permitirá identificar ligações genéti- cas e ocorrências de variantes independentes que estão associadas a um risco aumentado de desenvolvimento de CCR. Usando esse método, determinamos que há 4 diferentes gru- pos de variantes relevantes, sendo um adicional composto por variantes independentes. Esperamos que a identificação destes marcadores genéticos permita uma melhor ges- tão clínica dos doentes, nomeadamente devido à identificação de predisposições genéticas para CCR que permitirão uma melhor avaliação do risco dos doentes e alterar o tipo de exames a serem realizados e a sua frequência, que terá forte impacto não só na sua triagem clínica, mas também na dos seus familiares, isto pode permitir a identificação precoce de tumores ou mesmo lesões benignas, contribuindo assim para a prevenção de CCR. Acreditamos que este estudo contribuirá para a compreensão geral das causas CCR e avançará o estudo da sua prevenção. Também esperamos fornecer métodos de como identificar os mecanismos biológicos subjacentes às ocorrências de variantes genéticas não apenas para CCR, mas também para outras síndromes de câncer hereditário.

URI

http://hdl.handle.net/10362/151811

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo