Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10362/158610| Título: | Explaining Incorrect Feature Learning in the Training of Deep Neural Networks |
| Autor: | Calado, Miguel Cardoso de Almeida |
| Orientador: | Krippahl, Ludwig |
| Palavras-chave: | Deep Neural Networks Explainable Artificial Intelligence model behavior learning dynamics |
| Data de Defesa: | Dez-2022 |
| Resumo: | Deep learning has had an effective success and impact on our daily lives, automating
a body of complex tasks in a wide range of areas from image and speech recognition,
to more sensitive domains such as healthcare and criminal justice. In spite of these ac-
complishments, deep learning algorithms are considered black boxes since their inner
workings and decisions are imperceptible for humans to grasp, and perhaps as a conse-
quence of the previous, we are attesting to an increasing pace of deep learning failure
modes.
Current machine learning literature lacks in establishing a process or metric to con-
cretely measure deep learning algorithms’ failures or their prowess in learning valid and
generalizable strategies. By default, we evaluate model performance on metrics that are
ineffective in meeting multiple desired criteria, such as fairness and robustness. Similarly,
we rely on these same measurements when training deep models, without guarantees that
mischief is occurring in the training, nor if these same mistakes are being perpetuated
and have a negative impact on the final version of a model.
In this dissertation, we propose a framework for monitoring the training of deep neu-
ral networks at the feature level, with the goal of identifying incorrect learning strategies.
The proposed methodology is composed of three modules: the first one consists in detect-
ing the incorrect features a network learns based on already-established interpretability
methods and metrics, and the second and third aim to group similar learning strategies
for a single instance or a class of labels and visualize these findings.
We apply our framework on ImageNet: a large-scale publicly available image dataset
and trained state-of-the-art neural networks on the image classification task, analyzing
a total of 630 model checkpoints. In sum, we found evidence that our trained networks
learn different incorrect attributes during the training, sometimes even learning up to 5
independent incorrect patterns, and that instances learned with these strategies are less
robust to perturbations and manipulations to their input values. Recentemente, a aprendizagem profunda tem tido um impacto efectivo nos nossos quo- tidianos, automatizando um conjunto de tarefas complexas desde reconhecimento de imagem e fala até em domínios mais sensíveis como a saúde e justiça criminal. Apesar deste êxito, redes neuronais são consideradas como caixas negras dado que os seus me- canismos internos e decisões são imperceptíveis à compreensão humana. Talvez como consequência do anterior, estamos a presenciar um crescente ritmo de falhas em modelos de aprendizagem profunda. Abordagens atuais de avaliação de modelos de aprendizagem automática carecem em estabelecer um processo ou métrica para medirem concretamente as suas falhas a sua proeza em aprender estratégias de aprendizagem válidas e generalizáveis. Por defeito, avaliamos o desempenho de modelos em métricas que são ineficazes em atender a vários critérios desejados, como equidade e igualdade ou robustez. Da mesma forma, contamos com essas mesmas medições no treino de modelos profundos, sem garantias de que erros ocorram no treino, nem se esses mesmos erros são perpetuados e têm um impacto negativo na versão final do modelo. Nesta dissertação, propomos desenvolver uma metodologia para monitorizar o treino de redes neuronais profundas ao nível dos atributos, com o objetivo de identificar estraté- gias de aprendizagem incorretas. A metodologia proposta é composta por três módulos: o primeiro consiste em detectar atributos incorretos que uma rede aprenda com base em técnicas de explicabilidade de Inteligência Artificial, e o segundo e terceiro visam agru- par estratégias de aprendizagem semelhantes para uma única instância ou uma classe de exemplos, propondo novas técnicas de visualizar essas evidências. A metodologia proposta foi aplicada a um conjunto de dados de imagens, ImageNet, com o objectivo de classificar imagens. Em suma, analisámos cerca de 630 iterações de modelos e encontrámos evidências de que redes neuronais aprendem diferentes atributos incorretos durante o treino, por vezes aprendendo até cerca de 5 padrões incorretos, e que instâncias com esse tipo de aprendizagem são menos robustas a perturbações e manipulações. |
| URI: | http://hdl.handle.net/10362/158610 |
| Designação: | MASTER IN ANALYSIS AND ENGINEERING OF BIG DATA |
| Aparece nas colecções: | FCT: DI - Dissertações de Mestrado |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Calado_2022.pdf | 35,29 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.











