Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10362/178137| Título: | A Spherical Support Vector Machine for Classical and Interval-valued Data |
| Autor: | Malha, Rui Jorge Fernandes |
| Orientador: | Amaral, Paula |
| Palavras-chave: | SVM Automatic Classification Non-linear SVM Histogram-valued Data Symbolic Data Spherical separation |
| Data de Defesa: | 2024 |
| Resumo: | The application of automatic classification methods has significantly advanced real-time
fraud detection and anomaly monitoring, streamlined and modernized administrative pro-
cesses, and supported decision-making across various domains. Despite these advantages,
it is crucial to acknowledge the inherent risks of using these methods as "black boxes" that
operate without sufficient scrutiny or interpretability. Support Vector Machines (SVM)
offer a more transparent alternative compared to techniques like deep neural networks
and random forests. This study aims to harness the potential of SVMs while avoiding
the complexity introduced by kernel functions, thus preserving the classification model
within the original feature space and minimizing excessive parameter tuning.
In the classical SVM approach, the separation between classes is determined by a
hyperplane. Recently, generalizations of this concept have emerged, incorporating non-
linear separations through kernel functions or alternative schemes, such as non-linear
functions and polytopes. In this work, we propose a generalization of the SVM method,
where the separator is a curve with a spherical shape. However, key SVM principles,
such as margin maximization and the use of soft margins, are retained. We model this
spherical classification method as a quadratic optimization problem and introduce a linear
relaxation. These models were applied to classical data sets available from a benchmark
repository. Furthermore, we extend this approach to interval-valued data, within the
framework of Symbolic Data Analysis (SDA). In Symbolic Data, features are represented
by sets, intervals, or histograms, rather than conventional data arrays, an approach that
has gained increasing relevance, particularly in the era of Big Data.
As with the classical case, a relaxation is also presented for interval-value data. The
performance of these formulations was tested against traditional classification methods,
yielding highly positive results. This demonstrates the potential of the proposed approach
for enhancing classification accuracy and interpretability, particularly in complex data
scenarios. A aplicação de métodos de classificação automática tem alcançado avanços significativos na deteção de fraudes em tempo real e na monitorização de anomalias, simplificando e modernizando os processos administrativos, e apoiando a tomada de decisões em diversos domínios. Apesar destas vantagens, é crucial reconhecer os riscos inerentes à utilização destes métodos como "caixas negras", que operam sem a devida análise ou interpreta- bilidade. Support Vector Machines (SVM) oferece uma alternativa mais transparente em comparação com técnicas como Deep Neural Networks e Random Forest. Este estudo tem como objetivo aproveitar o potencial das SVM, evitando, contudo, a complexidade in- troduzida pelas funções Kernel, preservando assim o modelo de classificação no espaço original das características e minimizando o ajuste excessivo de parâmetros. Na abordagem clássica das SVM, a separação entre classes é determinada por um hiper- plano. Recentemente, surgiram generalizações deste conceito, incorporando separações não lineares através de funções de Kernel ou esquemas alternativos, como funções não lineares e politopos. Neste trabalho, propomos uma generalização do método SVM, onde o separador é uma curva com uma forma esférica. No entanto, são mantidos os princípios- chave das SVM, como a maximização da margem e a utilização de margens suaves. Modelamos este método de classificação esférica como um problema de otimização qua- drática e introduzimos uma relaxação linear. Estes modelos foram aplicados a dados clássicos. Além disso, estendemos esta abordagem a intervalos, no âmbito da Análise de Dados Simbólicos (SDA). Nos Dados Simbólicos, as características são representadas por conjuntos, intervalos ou histogramas, em vez de matrizes de dados convencionais, uma abordagem que tem ganho relevância crescente, particularmente na era de Big Data. Tal como no caso clássico, uma relaxação também é apresentada para intervalos. O de- sempenho destas formulações foi testado em comparação com métodos tradicionais de classificação, com resultados altamente positivos. Isto demonstra o potencial da abordagem proposta para melhorar a precisão e a interpretabilidade da classificação, especialmente em cenários de dados complexos. |
| URI: | http://hdl.handle.net/10362/178137 |
| Designação: | DOCTORATE IN MATHEMATICS |
| Aparece nas colecções: | FCT: DM - Teses de Doutoramento |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Malha_2024.pdf | 4,2 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.











