Recovering Genomes From Microbial Communities With Constrained Clustering

Barata, José António Simão

http://hdl.handle.net/10362/200060

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Barata_2025.pdf		2.37 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Barata, José António Simão

Orientador(es)

Lamúrias, André

Resumo(s)

Metagenomic binning is a computational process that consists of grouping fragments of microbial DNA from a metagenomic dataset into bins, each representing a potential genome. Exploring the intrinsic features of microbialDNAhas a wide array of applications, including the discovery of new drugs and wastewater management. The utilization of prior knowledge on the properties of the genome in order to aid the binning process has been proven to be beneficial. Despite this, current solutions that incorporate this information do so in a rather inefficient way, and do not use this knowledge during the clustering step. The project focused on evaluating how different clustering algorithms perform when using constrained clustering for metagenomic binning. By testing multiple methods with various sets of pairwise constraints, thiswork aims to determine howconstraints influence clustering outcomes and which algorithms benefit the most from their application. In addition to comparing different clustering approaches, the study examined how the type and number of constraints affect the clustering process. This analysis provided insights into the effectiveness of constrained clustering techniques and their potential to improve metagenomic binning by incorporating prior knowledge

O binning metagenómico é um processo computacional que consiste em agrupar fragmentos de ADN microbiano de um conjunto de dados metagenómico em bins, cada um representando um possível genoma. A exploração das características intrínsecas do ADN microbiano tem uma ampla gama de aplicações, incluindo a descoberta de novos fármacos e a gestão de águas residuais. A utilização de conhecimento prévio sobre as propriedades do genoma para auxiliar o processo de binning tem-se revelado benéfica. No entanto, as soluções atuais que incorporam esta informação fazem-no de forma ineficiente e não a utilizam durante a etapa de clustering. Este projeto centrou-se na avaliação do desempenho de diferentes algoritmos de clustering ao utilizar clustering com restrições para binning metagenómico. Ao testar múltiplos métodos com diferentes conjuntos de restrições par-a-par, pretendeu-se determinar como estas restrições influenciam os resultados do clustering e quais os algoritmos que mais beneficiam da sua aplicação. Para além da comparação entre diferentes abordagens de clustering, o estudo analisou o impacto do tipo e da quantidade de restrições no processo de clustering. Esta análise forneceu insights sobre a eficácia das técnicas de clustering com restrições e o seu potencial para melhorar o binning metagenómico através da integração de conhecimento prévio.

Palavras-chave

Metagenomics Constrained Clustering Unsupervised Learning Microbiology Metagenomic Binning Pairwise Clustering

URI

http://hdl.handle.net/10362/200060

Coleções

FCT: DI - Dissertações de Mestrado

Licença CC

cclicense-by

Ver registo completo