| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 3.66 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Large Language Models (LLMs) are increasingly being deployed in safety-critical contexts,
making adversarial robustness a central concern. While single-turn jailbreaks have been
widely studied, the multi-turn setting — where adversaries exploit sustained dialogue to
bypass safeguards — remains underexplored despite posing significant risks.
This thesis addresses this gap through the design and evaluation of RedTreez, a structured
attack system for planning and executing adaptive multi-turn adversarial strategies.
Developed as one of the core attack systems within the broader RedTWIZ framework [7],
RedTreez implements a novel tree-based paradigm for organizing and navigating complex
dialogue attacks. It formalizes high-level attack trajectories in a dynamic tree structure
and introduces pruning and adaptation protocols to make exploration efficient. The framework
leverages LLMs for context-aware prompt generation; furthermore, we developed a
specialized fine-tuned attacker model that demonstrated an enhanced ability to generate
effective, strategy-aligned prompts without relying on the explicit guidance required by
larger foundation models.
RedTreez was evaluated within the Amazon Trusted AI Challenge, a rigorous benchmark
involving state-of-the-art defense models and human-annotated judgments. The
system consistently achieved over 80% attack success rate across all evaluated systems,
including Claude 3.5 Sonnet [2]. Our empirical analysis of these results exposes critical
multi-turn vulnerabilities, specifically weaknesses in refusal consistency and defense
adaptation, demonstrating the robustness of our approach. These findings advance the
understanding of multi-turn adversarial dynamics and provide a foundation for building
more robust and trustworthy conversational AI systems.
Os Modelos de Linguagem de Grande Escala (LLMs) estão a ser cada vez mais implementados em contextos críticos para a segurança, tornando a sua robustez adversária uma preocupação central. Embora os jailbreaks de interação única (single-turn) tenham sido amplamente estudados, o cenário de múltiplas interações (multi-turn)—no qual os adversários exploram um diálogo sustentado para contornar salvaguardas — permanece pouco explorado, apesar de apresentar riscos significativos. Esta tese aborda esta lacuna através da conceção e avaliação do RedTreez, um sistema de ataque estruturado para planear e executar estratégias adversárias adaptativas em múltiplas interações. Desenvolvido como um dos sistemas de ataque centrais da estrutura mais abrangente RedTWIZ [7], o RedTreez implementa um paradigma inovador baseado em árvores (tree-based) para organizar e navegar ataques de diálogo complexos. O sistema formaliza trajetórias de ataque de alto nível numa estrutura de árvore dinâmica e introduz protocolos de poda (pruning) e adaptação para tornar a exploração eficiente. A estrutura recorre a LLMs para a geração de prompts sensíveis ao contexto; adicionalmente, desenvolvemos um modelo atacante especializado com fine-tuning que demonstrou uma capacidade superior para gerar prompts eficazes e alinhados com a estratégia, sem depender da orientação explícita exigida por modelos base (foundation models) de maior dimensão. O RedTreez foi avaliado no âmbito do Amazon Trusted AI Challenge, um benchmark rigoroso que envolve modelos de defesa state-of-the-art e avaliações validadas por humanos. O sistema alcançou consistentemente uma taxa de sucesso de ataque superior a 80% em todos os sistemas avaliados, incluindo o Claude 3.5 Sonnet [2]. A nossa análise empírica destes resultados expõe vulnerabilidades críticas em cenários de múltiplas interações, nomeadamente fragilidades na consistência das recusas e na adaptação das defesas, demonstrando a robustez da nossa abordagem. Estes resultados aprofundam a compreensão das dinâmicas adversárias em multi-turn e fornecem uma base para a construção de sistemas de IA conversacional mais robustos e confiáveis.
Os Modelos de Linguagem de Grande Escala (LLMs) estão a ser cada vez mais implementados em contextos críticos para a segurança, tornando a sua robustez adversária uma preocupação central. Embora os jailbreaks de interação única (single-turn) tenham sido amplamente estudados, o cenário de múltiplas interações (multi-turn)—no qual os adversários exploram um diálogo sustentado para contornar salvaguardas — permanece pouco explorado, apesar de apresentar riscos significativos. Esta tese aborda esta lacuna através da conceção e avaliação do RedTreez, um sistema de ataque estruturado para planear e executar estratégias adversárias adaptativas em múltiplas interações. Desenvolvido como um dos sistemas de ataque centrais da estrutura mais abrangente RedTWIZ [7], o RedTreez implementa um paradigma inovador baseado em árvores (tree-based) para organizar e navegar ataques de diálogo complexos. O sistema formaliza trajetórias de ataque de alto nível numa estrutura de árvore dinâmica e introduz protocolos de poda (pruning) e adaptação para tornar a exploração eficiente. A estrutura recorre a LLMs para a geração de prompts sensíveis ao contexto; adicionalmente, desenvolvemos um modelo atacante especializado com fine-tuning que demonstrou uma capacidade superior para gerar prompts eficazes e alinhados com a estratégia, sem depender da orientação explícita exigida por modelos base (foundation models) de maior dimensão. O RedTreez foi avaliado no âmbito do Amazon Trusted AI Challenge, um benchmark rigoroso que envolve modelos de defesa state-of-the-art e avaliações validadas por humanos. O sistema alcançou consistentemente uma taxa de sucesso de ataque superior a 80% em todos os sistemas avaliados, incluindo o Claude 3.5 Sonnet [2]. A nossa análise empírica destes resultados expõe vulnerabilidades críticas em cenários de múltiplas interações, nomeadamente fragilidades na consistência das recusas e na adaptação das defesas, demonstrando a robustez da nossa abordagem. Estes resultados aprofundam a compreensão das dinâmicas adversárias em multi-turn e fornecem uma base para a construção de sistemas de IA conversacional mais robustos e confiáveis.
Descrição
Palavras-chave
Large Language Models Multi-turn Jailbreaking Adversarial Attacks Red Teaming Model Alignment RedTreez Framework
