RedTWIZ Guard: Adversarial Jailbreak Detection in Multi-Turn Conversations

Pina, Daniel Lopes

http://hdl.handle.net/10362/200226

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Pina_2025.pdf		4.5 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Pina, Daniel Lopes

Orientador(es)

Semedo, David

Magalhães, João

Resumo(s)

Large Language Models (LLMs) have transformed artificial intelligence by advancing natural language understanding, reasoning, and code generation. Yet, their susceptibility to jailbreak attacks, where adversaries exploit alignment weaknesses to elicit unsafe or unethical outputs, poses severe risks for safety-critical domains such as cyber-security, automated coding assistance, and conversational AI. This thesis introduces RedTWIZ Guard, a jailbreak detection framework designed to evaluate and strengthen the robustness of LLMs under adversarial conditions. At its core are specialized evaluators, termed Jailbreak Judges, which classify multi-turn attacker–defender interactions as safe or unsafe, with a focus on malicious code generation and harmful explanations. The framework systematically explores three judge paradigms: zero and few-shot LLM judges, encoder-based discriminative models, and decoder-based generative models. To support reproducibility and scalability, the work also introduces a novel adversarial dataset, RedTWIZ-Eval, and a modular pre-processing pipeline for consistent experimentation. Importantly, this framework was developed as a core component of Team RedTWIZ’s system in the Amazon NOVA AI Challenge, where it contributed to achieving second place overall among international teams. By establishing a rigorous methodology, curated datasets, and empirically validated models, this thesis contributes a reproducible foundation for future research into adversarial robustness, automated safety evaluation, and the secure deployment of LLMs in cyber-security applications.

Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a área da inteligência artificial ao permitir um entendimento avançado da linguagem natural, do raciocínio lógico e de geração de código. No entanto, a sua vulnerabilidade a ataques "jailbreak", que exploram fraquezas de alinhamento de segurança do modelo para produzir respostas maliciosas, representam riscos em aplicações sensíveis à segurança, como assistentes de código e agentes conversacionais. Esta tese apresenta o RedTWIZ Guard, um sistema de deteção de "jailbreak"concebido para avaliar e reforçar a segurança dos LLMs em cenários adversariais. No centro estão classificadores especializados, denominados Jailbreak Judges, que classificam interações multi-turno entre atacante e defesa como seguras ou inseguras, com foco na geração de código malicioso e de explicações de caracter malicioso. O enquadramento explora três paradigmas de classificadores: LLM em configurações "zero"e "few-shot"e modelos baseados em encoders e decoders. Para assegurar reprodutibilidade e escalabilidade, o trabalho introduz ainda um novo conjunto de dados adversariais, RedTWIZ-Eval, e uma "pipeline"modular de pré-processamento para tornar a avaliação mais concistente. Este framework foi desenvolvido como um componente central do sistema da Equipa RedTWIZ no Amazon NOVA AI Challenge, onde contribuiu para a conquista do segundo lugar global entre as equipas internacionais. Ao estabelecer uma metodologia rigorosa, conjuntos de dados anotados e modelos validados empiricamente, esta tese contribui com uma base reprodutível para pesquisa científica futura sobre robustez adversarial, avaliação automática de segurança e a implementação segura de LLMs em aplicações de ciber-segurança.

Palavras-chave

Large Language Models Jailbreak Detection Cyber-Security Multi-Turn Attacks Red Teaming Amazon NOVA AI Challenge

URI

http://hdl.handle.net/10362/200226

Coleções

FCT: DI - Dissertações de Mestrado

Licença CC

cclicense-by

Ver registo completo