RedTreez: A Tree-Based Framework for Conversational Red Teaming

Paulo, Iago Miguel do Nascimento

http://hdl.handle.net/10362/200063

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Paulo_2025.pdf		3.66 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Paulo, Iago Miguel do Nascimento

Orientador(es)

Semedo, David

Resumo(s)

Large Language Models (LLMs) are increasingly being deployed in safety-critical contexts, making adversarial robustness a central concern. While single-turn jailbreaks have been widely studied, the multi-turn setting — where adversaries exploit sustained dialogue to bypass safeguards — remains underexplored despite posing significant risks. This thesis addresses this gap through the design and evaluation of RedTreez, a structured attack system for planning and executing adaptive multi-turn adversarial strategies. Developed as one of the core attack systems within the broader RedTWIZ framework [7], RedTreez implements a novel tree-based paradigm for organizing and navigating complex dialogue attacks. It formalizes high-level attack trajectories in a dynamic tree structure and introduces pruning and adaptation protocols to make exploration efficient. The framework leverages LLMs for context-aware prompt generation; furthermore, we developed a specialized fine-tuned attacker model that demonstrated an enhanced ability to generate effective, strategy-aligned prompts without relying on the explicit guidance required by larger foundation models. RedTreez was evaluated within the Amazon Trusted AI Challenge, a rigorous benchmark involving state-of-the-art defense models and human-annotated judgments. The system consistently achieved over 80% attack success rate across all evaluated systems, including Claude 3.5 Sonnet [2]. Our empirical analysis of these results exposes critical multi-turn vulnerabilities, specifically weaknesses in refusal consistency and defense adaptation, demonstrating the robustness of our approach. These findings advance the understanding of multi-turn adversarial dynamics and provide a foundation for building more robust and trustworthy conversational AI systems.

Os Modelos de Linguagem de Grande Escala (LLMs) estão a ser cada vez mais implementados em contextos críticos para a segurança, tornando a sua robustez adversária uma preocupação central. Embora os jailbreaks de interação única (single-turn) tenham sido amplamente estudados, o cenário de múltiplas interações (multi-turn)—no qual os adversários exploram um diálogo sustentado para contornar salvaguardas — permanece pouco explorado, apesar de apresentar riscos significativos. Esta tese aborda esta lacuna através da conceção e avaliação do RedTreez, um sistema de ataque estruturado para planear e executar estratégias adversárias adaptativas em múltiplas interações. Desenvolvido como um dos sistemas de ataque centrais da estrutura mais abrangente RedTWIZ [7], o RedTreez implementa um paradigma inovador baseado em árvores (tree-based) para organizar e navegar ataques de diálogo complexos. O sistema formaliza trajetórias de ataque de alto nível numa estrutura de árvore dinâmica e introduz protocolos de poda (pruning) e adaptação para tornar a exploração eficiente. A estrutura recorre a LLMs para a geração de prompts sensíveis ao contexto; adicionalmente, desenvolvemos um modelo atacante especializado com fine-tuning que demonstrou uma capacidade superior para gerar prompts eficazes e alinhados com a estratégia, sem depender da orientação explícita exigida por modelos base (foundation models) de maior dimensão. O RedTreez foi avaliado no âmbito do Amazon Trusted AI Challenge, um benchmark rigoroso que envolve modelos de defesa state-of-the-art e avaliações validadas por humanos. O sistema alcançou consistentemente uma taxa de sucesso de ataque superior a 80% em todos os sistemas avaliados, incluindo o Claude 3.5 Sonnet [2]. A nossa análise empírica destes resultados expõe vulnerabilidades críticas em cenários de múltiplas interações, nomeadamente fragilidades na consistência das recusas e na adaptação das defesas, demonstrando a robustez da nossa abordagem. Estes resultados aprofundam a compreensão das dinâmicas adversárias em multi-turn e fornecem uma base para a construção de sistemas de IA conversacional mais robustos e confiáveis.

Palavras-chave

Large Language Models Multi-turn Jailbreaking Adversarial Attacks Red Teaming Model Alignment RedTreez Framework

URI

http://hdl.handle.net/10362/200063

Coleções

FCT: DI - Dissertações de Mestrado

Licença CC

cclicense-by

Ver registo completo