| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 4.5 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Large Language Models (LLMs) have transformed artificial intelligence by advancing
natural language understanding, reasoning, and code generation. Yet, their susceptibility
to jailbreak attacks, where adversaries exploit alignment weaknesses to elicit unsafe or
unethical outputs, poses severe risks for safety-critical domains such as cyber-security,
automated coding assistance, and conversational AI.
This thesis introduces RedTWIZ Guard, a jailbreak detection framework designed
to evaluate and strengthen the robustness of LLMs under adversarial conditions. At
its core are specialized evaluators, termed Jailbreak Judges, which classify multi-turn
attacker–defender interactions as safe or unsafe, with a focus on malicious code generation
and harmful explanations. The framework systematically explores three judge paradigms:
zero and few-shot LLM judges, encoder-based discriminative models, and decoder-based
generative models. To support reproducibility and scalability, the work also introduces
a novel adversarial dataset, RedTWIZ-Eval, and a modular pre-processing pipeline for
consistent experimentation.
Importantly, this framework was developed as a core component of Team RedTWIZ’s
system in the Amazon NOVA AI Challenge, where it contributed to achieving second
place overall among international teams.
By establishing a rigorous methodology, curated datasets, and empirically validated
models, this thesis contributes a reproducible foundation for future research into adversarial robustness, automated safety evaluation, and the secure deployment of LLMs in
cyber-security applications.
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a área da inteligência artificial ao permitir um entendimento avançado da linguagem natural, do raciocínio lógico e de geração de código. No entanto, a sua vulnerabilidade a ataques "jailbreak", que exploram fraquezas de alinhamento de segurança do modelo para produzir respostas maliciosas, representam riscos em aplicações sensíveis à segurança, como assistentes de código e agentes conversacionais. Esta tese apresenta o RedTWIZ Guard, um sistema de deteção de "jailbreak"concebido para avaliar e reforçar a segurança dos LLMs em cenários adversariais. No centro estão classificadores especializados, denominados Jailbreak Judges, que classificam interações multi-turno entre atacante e defesa como seguras ou inseguras, com foco na geração de código malicioso e de explicações de caracter malicioso. O enquadramento explora três paradigmas de classificadores: LLM em configurações "zero"e "few-shot"e modelos baseados em encoders e decoders. Para assegurar reprodutibilidade e escalabilidade, o trabalho introduz ainda um novo conjunto de dados adversariais, RedTWIZ-Eval, e uma "pipeline"modular de pré-processamento para tornar a avaliação mais concistente. Este framework foi desenvolvido como um componente central do sistema da Equipa RedTWIZ no Amazon NOVA AI Challenge, onde contribuiu para a conquista do segundo lugar global entre as equipas internacionais. Ao estabelecer uma metodologia rigorosa, conjuntos de dados anotados e modelos validados empiricamente, esta tese contribui com uma base reprodutível para pesquisa científica futura sobre robustez adversarial, avaliação automática de segurança e a implementação segura de LLMs em aplicações de ciber-segurança.
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a área da inteligência artificial ao permitir um entendimento avançado da linguagem natural, do raciocínio lógico e de geração de código. No entanto, a sua vulnerabilidade a ataques "jailbreak", que exploram fraquezas de alinhamento de segurança do modelo para produzir respostas maliciosas, representam riscos em aplicações sensíveis à segurança, como assistentes de código e agentes conversacionais. Esta tese apresenta o RedTWIZ Guard, um sistema de deteção de "jailbreak"concebido para avaliar e reforçar a segurança dos LLMs em cenários adversariais. No centro estão classificadores especializados, denominados Jailbreak Judges, que classificam interações multi-turno entre atacante e defesa como seguras ou inseguras, com foco na geração de código malicioso e de explicações de caracter malicioso. O enquadramento explora três paradigmas de classificadores: LLM em configurações "zero"e "few-shot"e modelos baseados em encoders e decoders. Para assegurar reprodutibilidade e escalabilidade, o trabalho introduz ainda um novo conjunto de dados adversariais, RedTWIZ-Eval, e uma "pipeline"modular de pré-processamento para tornar a avaliação mais concistente. Este framework foi desenvolvido como um componente central do sistema da Equipa RedTWIZ no Amazon NOVA AI Challenge, onde contribuiu para a conquista do segundo lugar global entre as equipas internacionais. Ao estabelecer uma metodologia rigorosa, conjuntos de dados anotados e modelos validados empiricamente, esta tese contribui com uma base reprodutível para pesquisa científica futura sobre robustez adversarial, avaliação automática de segurança e a implementação segura de LLMs em aplicações de ciber-segurança.
Descrição
Palavras-chave
Large Language Models Jailbreak Detection Cyber-Security Multi-Turn Attacks Red Teaming Amazon NOVA AI Challenge
