| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 4.58 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
This dissertation introduces a comprehensive framework for automated multi-turn jail-
break discovery and red teaming of large language models (LLMs), developed in the
context of the Amazon Nova AI Challenge focused on responsible AI and code security.
The proposed system, MRT-Ferret, leverages systematic adversarial prompt generation,
iterative reward-based optimization, and broad coverage across cybersecurity risk cate-
gories and attack styles to test LLM robustness under realistic, multi-turn conversational
scenarios.
At the core of the methodology lies a structured archive of malicious prompt com-
binations, enhanced by stylistic mutations and vulnerability injections grounded in the
Common Weakness Enumeration (CWE), enabling the detection and exploitation of de-
fender blind spots with high fidelity. Candidate prompts are dynamically scored using
custom LLM-based judges, allowing adaptive refinement of adversarial strategies against
a diverse set of defending models.
Extensive empirical evaluation demonstrates that MRT-Ferret consistently discovers
sophisticated jailbreaks and highlights persistent weaknesses in contemporary LLM safety
mechanisms. The results support the strategic integration of automated red teaming and
vulnerability-aware prompt engineering as essential practices for advancing AI system
security and alignment. This work contributes novel datasets, evaluation protocols,
and adversarial techniques, providing a foundation for future research in the proactive
assessment and fortification of conversational AI systems against evolving adversarial
threats.
Esta dissertação apresenta uma estrutura abrangente para a descoberta automatizada de jailbreaks de múltiplas interações (multi-turn) e para red teaming de modelos de linguagem de grande porte (LLMs), desenvolvida no contexto do Amazon Nova AI Challenge, com foco em IA responsável e segurança de código. O sistema proposto, MRT- Ferret, utiliza geração sistemática de prompts adversariais, otimização iterativa baseada em recompensas e ampla cobertura das categorias de risco em cibersegurança e estilos de ataque para testar a robustez de LLMs em cenários de conversação realistas e de múltiplas etapas. No núcleo da metodologia encontra-se um arquivo estruturado de combinações de prompts maliciosos, aprimorado por mutações estilísticas e injeções de vulnerabilidades baseadas na Common Weakness Enumeration (CWE), permitindo a detecção e exploração de pontos cegos dos sistemas defensores com alta fidelidade. Os prompts candidatos são pontuados dinamicamente usando juízes personalizados baseados em LLM, permitindo o refinamento adaptativo das estratégias adversariais contra um conjunto diversificado de modelos defensores. Uma avaliação empírica extensiva demonstra que o MRT-Ferret descobre consisten- temente jailbreaks sofisticados e evidencia fraquezas persistentes nos mecanismos de segurança dos LLMs contemporâneos. Os resultados apoiam a integração estratégica de red teaming automatizado e de engenharia de prompts consciente de vulnerabilidades como práticas essenciais para o avanço da segurança e do alinhamento de sistemas de IA. Este trabalho contribui com novos datasets, protocolos de avaliação e técnicas adversariais, fornecendo uma base para pesquisas futuras na avaliação proativa e no fortalecimento de sistemas de IA conversacional contra ameaças adversariais em evolução.
Esta dissertação apresenta uma estrutura abrangente para a descoberta automatizada de jailbreaks de múltiplas interações (multi-turn) e para red teaming de modelos de linguagem de grande porte (LLMs), desenvolvida no contexto do Amazon Nova AI Challenge, com foco em IA responsável e segurança de código. O sistema proposto, MRT- Ferret, utiliza geração sistemática de prompts adversariais, otimização iterativa baseada em recompensas e ampla cobertura das categorias de risco em cibersegurança e estilos de ataque para testar a robustez de LLMs em cenários de conversação realistas e de múltiplas etapas. No núcleo da metodologia encontra-se um arquivo estruturado de combinações de prompts maliciosos, aprimorado por mutações estilísticas e injeções de vulnerabilidades baseadas na Common Weakness Enumeration (CWE), permitindo a detecção e exploração de pontos cegos dos sistemas defensores com alta fidelidade. Os prompts candidatos são pontuados dinamicamente usando juízes personalizados baseados em LLM, permitindo o refinamento adaptativo das estratégias adversariais contra um conjunto diversificado de modelos defensores. Uma avaliação empírica extensiva demonstra que o MRT-Ferret descobre consisten- temente jailbreaks sofisticados e evidencia fraquezas persistentes nos mecanismos de segurança dos LLMs contemporâneos. Os resultados apoiam a integração estratégica de red teaming automatizado e de engenharia de prompts consciente de vulnerabilidades como práticas essenciais para o avanço da segurança e do alinhamento de sistemas de IA. Este trabalho contribui com novos datasets, protocolos de avaliação e técnicas adversariais, fornecendo uma base para pesquisas futuras na avaliação proativa e no fortalecimento de sistemas de IA conversacional contra ameaças adversariais em evolução.
Descrição
Palavras-chave
LLM Jailbreaking Automatic Malicious Code Detection
