A Spherical Support Vector Machine for Classical and Interval-valued Data

Malha, Rui Jorge Fernandes

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10362/178137

Título:	A Spherical Support Vector Machine for Classical and Interval-valued Data
Autor:	Malha, Rui Jorge Fernandes
Orientador:	Amaral, Paula
Palavras-chave:	SVM Automatic Classification Non-linear SVM Histogram-valued Data Symbolic Data Spherical separation
Data de Defesa:	2024
Resumo:	The application of automatic classification methods has significantly advanced real-time fraud detection and anomaly monitoring, streamlined and modernized administrative pro- cesses, and supported decision-making across various domains. Despite these advantages, it is crucial to acknowledge the inherent risks of using these methods as "black boxes" that operate without sufficient scrutiny or interpretability. Support Vector Machines (SVM) offer a more transparent alternative compared to techniques like deep neural networks and random forests. This study aims to harness the potential of SVMs while avoiding the complexity introduced by kernel functions, thus preserving the classification model within the original feature space and minimizing excessive parameter tuning. In the classical SVM approach, the separation between classes is determined by a hyperplane. Recently, generalizations of this concept have emerged, incorporating non- linear separations through kernel functions or alternative schemes, such as non-linear functions and polytopes. In this work, we propose a generalization of the SVM method, where the separator is a curve with a spherical shape. However, key SVM principles, such as margin maximization and the use of soft margins, are retained. We model this spherical classification method as a quadratic optimization problem and introduce a linear relaxation. These models were applied to classical data sets available from a benchmark repository. Furthermore, we extend this approach to interval-valued data, within the framework of Symbolic Data Analysis (SDA). In Symbolic Data, features are represented by sets, intervals, or histograms, rather than conventional data arrays, an approach that has gained increasing relevance, particularly in the era of Big Data. As with the classical case, a relaxation is also presented for interval-value data. The performance of these formulations was tested against traditional classification methods, yielding highly positive results. This demonstrates the potential of the proposed approach for enhancing classification accuracy and interpretability, particularly in complex data scenarios. A aplicação de métodos de classificação automática tem alcançado avanços significativos na deteção de fraudes em tempo real e na monitorização de anomalias, simplificando e modernizando os processos administrativos, e apoiando a tomada de decisões em diversos domínios. Apesar destas vantagens, é crucial reconhecer os riscos inerentes à utilização destes métodos como "caixas negras", que operam sem a devida análise ou interpreta- bilidade. Support Vector Machines (SVM) oferece uma alternativa mais transparente em comparação com técnicas como Deep Neural Networks e Random Forest. Este estudo tem como objetivo aproveitar o potencial das SVM, evitando, contudo, a complexidade in- troduzida pelas funções Kernel, preservando assim o modelo de classificação no espaço original das características e minimizando o ajuste excessivo de parâmetros. Na abordagem clássica das SVM, a separação entre classes é determinada por um hiper- plano. Recentemente, surgiram generalizações deste conceito, incorporando separações não lineares através de funções de Kernel ou esquemas alternativos, como funções não lineares e politopos. Neste trabalho, propomos uma generalização do método SVM, onde o separador é uma curva com uma forma esférica. No entanto, são mantidos os princípios- chave das SVM, como a maximização da margem e a utilização de margens suaves. Modelamos este método de classificação esférica como um problema de otimização qua- drática e introduzimos uma relaxação linear. Estes modelos foram aplicados a dados clássicos. Além disso, estendemos esta abordagem a intervalos, no âmbito da Análise de Dados Simbólicos (SDA). Nos Dados Simbólicos, as características são representadas por conjuntos, intervalos ou histogramas, em vez de matrizes de dados convencionais, uma abordagem que tem ganho relevância crescente, particularmente na era de Big Data. Tal como no caso clássico, uma relaxação também é apresentada para intervalos. O de- sempenho destas formulações foi testado em comparação com métodos tradicionais de classificação, com resultados altamente positivos. Isto demonstra o potencial da abordagem proposta para melhorar a precisão e a interpretabilidade da classificação, especialmente em cenários de dados complexos.
URI:	http://hdl.handle.net/10362/178137
Designação:	DOCTORATE IN MATHEMATICS
Aparece nas colecções:	FCT: DM - Teses de Doutoramento

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Malha_2024.pdf		4,2 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo Dê a sua opinião sobre este registo.