Explaining Incorrect Feature Learning in the Training of Deep Neural Networks

Calado, Miguel Cardoso de Almeida

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10362/158610

Título:	Explaining Incorrect Feature Learning in the Training of Deep Neural Networks
Autor:	Calado, Miguel Cardoso de Almeida
Orientador:	Krippahl, Ludwig
Palavras-chave:	Deep Neural Networks Explainable Artificial Intelligence model behavior learning dynamics
Data de Defesa:	Dez-2022
Resumo:	Deep learning has had an effective success and impact on our daily lives, automating a body of complex tasks in a wide range of areas from image and speech recognition, to more sensitive domains such as healthcare and criminal justice. In spite of these ac- complishments, deep learning algorithms are considered black boxes since their inner workings and decisions are imperceptible for humans to grasp, and perhaps as a conse- quence of the previous, we are attesting to an increasing pace of deep learning failure modes. Current machine learning literature lacks in establishing a process or metric to con- cretely measure deep learning algorithms’ failures or their prowess in learning valid and generalizable strategies. By default, we evaluate model performance on metrics that are ineffective in meeting multiple desired criteria, such as fairness and robustness. Similarly, we rely on these same measurements when training deep models, without guarantees that mischief is occurring in the training, nor if these same mistakes are being perpetuated and have a negative impact on the final version of a model. In this dissertation, we propose a framework for monitoring the training of deep neu- ral networks at the feature level, with the goal of identifying incorrect learning strategies. The proposed methodology is composed of three modules: the first one consists in detect- ing the incorrect features a network learns based on already-established interpretability methods and metrics, and the second and third aim to group similar learning strategies for a single instance or a class of labels and visualize these findings. We apply our framework on ImageNet: a large-scale publicly available image dataset and trained state-of-the-art neural networks on the image classification task, analyzing a total of 630 model checkpoints. In sum, we found evidence that our trained networks learn different incorrect attributes during the training, sometimes even learning up to 5 independent incorrect patterns, and that instances learned with these strategies are less robust to perturbations and manipulations to their input values. Recentemente, a aprendizagem profunda tem tido um impacto efectivo nos nossos quo- tidianos, automatizando um conjunto de tarefas complexas desde reconhecimento de imagem e fala até em domínios mais sensíveis como a saúde e justiça criminal. Apesar deste êxito, redes neuronais são consideradas como caixas negras dado que os seus me- canismos internos e decisões são imperceptíveis à compreensão humana. Talvez como consequência do anterior, estamos a presenciar um crescente ritmo de falhas em modelos de aprendizagem profunda. Abordagens atuais de avaliação de modelos de aprendizagem automática carecem em estabelecer um processo ou métrica para medirem concretamente as suas falhas a sua proeza em aprender estratégias de aprendizagem válidas e generalizáveis. Por defeito, avaliamos o desempenho de modelos em métricas que são ineficazes em atender a vários critérios desejados, como equidade e igualdade ou robustez. Da mesma forma, contamos com essas mesmas medições no treino de modelos profundos, sem garantias de que erros ocorram no treino, nem se esses mesmos erros são perpetuados e têm um impacto negativo na versão final do modelo. Nesta dissertação, propomos desenvolver uma metodologia para monitorizar o treino de redes neuronais profundas ao nível dos atributos, com o objetivo de identificar estraté- gias de aprendizagem incorretas. A metodologia proposta é composta por três módulos: o primeiro consiste em detectar atributos incorretos que uma rede aprenda com base em técnicas de explicabilidade de Inteligência Artificial, e o segundo e terceiro visam agru- par estratégias de aprendizagem semelhantes para uma única instância ou uma classe de exemplos, propondo novas técnicas de visualizar essas evidências. A metodologia proposta foi aplicada a um conjunto de dados de imagens, ImageNet, com o objectivo de classificar imagens. Em suma, analisámos cerca de 630 iterações de modelos e encontrámos evidências de que redes neuronais aprendem diferentes atributos incorretos durante o treino, por vezes aprendendo até cerca de 5 padrões incorretos, e que instâncias com esse tipo de aprendizagem são menos robustas a perturbações e manipulações.
URI:	http://hdl.handle.net/10362/158610
Designação:	MASTER IN ANALYSIS AND ENGINEERING OF BIG DATA
Aparece nas colecções:	FCT: DI - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Calado_2022.pdf		35,29 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo Dê a sua opinião sobre este registo.