Reward-based Multi-turn LLM Jailbreak

Soares, João Pedro Serra Campos

http://hdl.handle.net/10362/202678

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Soares_2025.pdf		4.58 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Soares, João Pedro Serra Campos

Orientador(es)

Magalhães, João

Resumo(s)

This dissertation introduces a comprehensive framework for automated multi-turn jail- break discovery and red teaming of large language models (LLMs), developed in the context of the Amazon Nova AI Challenge focused on responsible AI and code security. The proposed system, MRT-Ferret, leverages systematic adversarial prompt generation, iterative reward-based optimization, and broad coverage across cybersecurity risk cate- gories and attack styles to test LLM robustness under realistic, multi-turn conversational scenarios. At the core of the methodology lies a structured archive of malicious prompt com- binations, enhanced by stylistic mutations and vulnerability injections grounded in the Common Weakness Enumeration (CWE), enabling the detection and exploitation of de- fender blind spots with high fidelity. Candidate prompts are dynamically scored using custom LLM-based judges, allowing adaptive refinement of adversarial strategies against a diverse set of defending models. Extensive empirical evaluation demonstrates that MRT-Ferret consistently discovers sophisticated jailbreaks and highlights persistent weaknesses in contemporary LLM safety mechanisms. The results support the strategic integration of automated red teaming and vulnerability-aware prompt engineering as essential practices for advancing AI system security and alignment. This work contributes novel datasets, evaluation protocols, and adversarial techniques, providing a foundation for future research in the proactive assessment and fortification of conversational AI systems against evolving adversarial threats.

Esta dissertação apresenta uma estrutura abrangente para a descoberta automatizada de jailbreaks de múltiplas interações (multi-turn) e para red teaming de modelos de linguagem de grande porte (LLMs), desenvolvida no contexto do Amazon Nova AI Challenge, com foco em IA responsável e segurança de código. O sistema proposto, MRT- Ferret, utiliza geração sistemática de prompts adversariais, otimização iterativa baseada em recompensas e ampla cobertura das categorias de risco em cibersegurança e estilos de ataque para testar a robustez de LLMs em cenários de conversação realistas e de múltiplas etapas. No núcleo da metodologia encontra-se um arquivo estruturado de combinações de prompts maliciosos, aprimorado por mutações estilísticas e injeções de vulnerabilidades baseadas na Common Weakness Enumeration (CWE), permitindo a detecção e exploração de pontos cegos dos sistemas defensores com alta fidelidade. Os prompts candidatos são pontuados dinamicamente usando juízes personalizados baseados em LLM, permitindo o refinamento adaptativo das estratégias adversariais contra um conjunto diversificado de modelos defensores. Uma avaliação empírica extensiva demonstra que o MRT-Ferret descobre consisten- temente jailbreaks sofisticados e evidencia fraquezas persistentes nos mecanismos de segurança dos LLMs contemporâneos. Os resultados apoiam a integração estratégica de red teaming automatizado e de engenharia de prompts consciente de vulnerabilidades como práticas essenciais para o avanço da segurança e do alinhamento de sistemas de IA. Este trabalho contribui com novos datasets, protocolos de avaliação e técnicas adversariais, fornecendo uma base para pesquisas futuras na avaliação proativa e no fortalecimento de sistemas de IA conversacional contra ameaças adversariais em evolução.

Palavras-chave

LLM Jailbreaking Automatic Malicious Code Detection

URI

http://hdl.handle.net/10362/202678

Coleções

FCT: DI - Dissertações de Mestrado

Licença CC

cclicense-by

Ver registo completo