Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10362/149180
Título: | Evolving Decision Rules with Geometric Semantic Genetic Programming |
Autor: | Rasteiro, Diogo Miguel Galveia De Oliveira |
Orientador: | Vanneschi, Leonardo |
Palavras-chave: | Genetic Programming Geometric Semantic Genetic Programming Machine Learning Decision Trees Programação Genética Programação Genética em Geometria Semântica Aprendizagem Automática Árvores de Decisão |
Data de Defesa: | 18-Jan-2023 |
Resumo: | Due to the ever increasing amount of data available in today’s world, a variety of
methods to harness this information are continuously being created, refined and
utilized, drawing inspiration from a multitude of sources. Relevant to this work are
Supervised Learning techniques, that attempt to discover the relationship between the
characteristics of data and a certain feature, to uncover the function that maps input
to output. Among these, Genetic Programming (GP) attempts to replicate the concept
of evolution as defined by Charles Darwin, mimicking natural selection and genetic
operators to generate and improve a population of solutions for a given prediction
problem.
Among the possible variants of GP, Geometric Semantic Genetic Programming
(GSGP) stands out, due to its focus on the meaning of each individual it creates, rather
than their structure. It achieves by imagining an hypothetical and perfect model, and
evaluating the performance of others by measuring how much their behaviour differ
from it, and uses a set of genetic operators that have a specific effect on the individual’s
semantics (i.e., its predictions for training data), with the goal of reaching ever closer
to the so called perfect specimen.
This thesis conceptualizes and evaluates the performance of aGSGPimplementation
made specifically to deal with multi-class classification problems, using tree-based
individuals that are composed by a set of rules to allow the categorization of data. This
is achieved through the careful translation of GSGP’s theoretical foundation, first into
algorithms and then into an actual code library, able to tackle problems of this domain.
The results demonstrate that the implementation works successfully and respects the
properties of the the original technique, allowing us to obtain excellent results on
training data, although performance on unseen data is a slightly worse than that of
other state-of-the-art algorithms. Devido à crescente quantidade de dados do mundo de hoje, uma variedade de métodos para utilizar esta informação é continuamente criada, melhorada e utilizado, com inspiração de diversas fontes. Com particular relevância para este trabalho são técnicas de Supervised Learning, que visam descobrir a relação entre as características dos dados e um traço específico destes, de modo a encontrar uma função que consiga mapear os inputs aos outputs. Entre estas, Programação Genética (PG) tenta recriar o conceito de evolução como definido por Charles Darwin, imitando a seleção natural e operadores genéticos para gerar e melhorar uma população de soluções para um dado problema preditivo. Entre as possíveis variantes de PG, Programação Genética em Geometria Semântica (PGGS) é notável, pois coloca o seu foco no significado de cada indivíduo que cria, em vez da sua estrutura. Realiza isto ao imaginar um modelo hipotético e perfeito, e avaliar as capacidades dos outros medindo o quão diferente o seu comportamento difere deste, e utiliza um conjunto de operadores genéticos com um efeito específico na semântica de um indíviduo (i.e., as suas previsões para dados de treino), visando chegar cada vez mais perto ao tão chamado espécime perfeito. Esta tese conceptualiza e avalia o desempenho de uma implementação de PGGS feita especificamente para lidar com problemas de classificação multi-classe, utilizando indivíduos baseados em árvores compostos por uma série de regras que permitem a categorização de dados. Isto é feito através de uma tradução cuidadosa da base teórica de PGGS, primeiro para algoritmos e depois para uma biblioteca de código, capaz de enfrentar problemas deste domínio. Os resultados demonstram que a implementação funciona corretamente e respeita as propriedades da técnica original, permitindo que obtivéssemos resultados excelentes nos dados de treino, embora o desempenho em dados não vistos seja ligeiramente abaixo de outros algoritmos de última geração. |
Descrição: | Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data Science |
URI: | http://hdl.handle.net/10362/149180 |
Designação: | Mestrado em Ciência de Dados e Métodos Analíticos Avançados, especialização em Ciência de Dados |
Aparece nas colecções: | NIMS - Dissertações de Mestrado em Ciência de Dados e Métodos Analíticos Avançados (Data Science and Advanced Analytics) |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TCDMAA1661.pdf | 574,38 kB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.