RedShell: A Generative AI-Based Approach to Ethical Hacking

Bessa, Ricardo Jorge Matos

http://hdl.handle.net/10362/201844

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Bessa_2025.pdf		2.36 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Bessa, Ricardo Jorge Matos

Orientador(es)

Claro, Rui

Lourenço, João

Trindade, João

Resumo(s)

The application of Machine Learning techniques in code generation is now a common practice for most developers. Tools such as ChatGPT from OpenAI leverage the natural language processing capabilities of Large Language Models to generate machine code from natural language descriptions. In the cybersecurity field, red teams can also take advantage of generative models to build malicious code generators, providing more automation to pentest audits. However, the application of Large Language Models in malicious code generation remains challenging due to the lack of data to train and evaluate offensive code generators. In this work, we propose RedShell, a tool that allows ethical hackers to generate malicious PowerShell code. We also introduce a ground truth dataset, combining publicly available code samples to fine-tune models in malicious PowerShell generation. Our experiments demonstrate the strong capabilities of RedShell in generating syntactically valid PowerShell, with over 90% of the generated samples successfully parsed without errors. Furthermore, our specialized model was able to produce samples that were semantically consistent with reference snippets, achieving a competitive performance on standard output similarity metrics such as edit distance and METEOR, with their similarity scores exceeding 50% and 40%, respectively. We also conducted a functional evaluation of the snippets generated by our tool, emphasizing their strong effectiveness in a wide range of offensive cybersecurity operations. This work sheds light on the state-of-the-art research in the field of Generative AI applied to pentesting and also serves as a steppingstone for future advancements, highlighting the potential benefits these models hold within such controlled environments.

A aplicação de técnicas de Aprendizagem Automática na geração de código é atualmente uma prática comum entre programadores. Ferramentas como o ChatGPT da OpenAI tiram partido das capacidades de processamento de linguagem natural dos Modelos de Linguagem de Larga Escala para gerar código a partir de descrições em linguagem natural. No domínio da cibersegurança, as red teams podem também beneficiar de modelos generativos para construir geradores de código malicioso, oferecendo a possibilidade de realizar testes de intrusão de forma mais automática. No entanto, a aplicação de Modelos de Linguagem de Larga Escala na geração de código malicioso continua a ser um desafio, devido à escassez de dados para treinar e avaliar geradores de código ofensivo. Neste trabalho, propomos uma nova ferramenta chamada RedShell para auxiliar hackers éticos na geração de código PowerShell malicioso. Introduzimos também um conjunto de dados de referência, combinando amostras de código disponíveis publicamente, para especializar modelos na geração de PowerShell malicioso. As nossas experiências demonstram as fortes capacidades exibidas pelo RedShell na geração de PowerShell sintacticamente válido, com mais de 90% de amostras geradas sem erros de parsing. Adicionalmente, o nosso modelo especializado foi capaz de produzir amostras semanticamente consistentes com os dados de referência, alcançando um desempenho competitivo em métricas de distância standard, como a distância de edição e METEOR, com pontuações de similaridade superiores a 50% e 40%, respetivamente. Foi também realizada uma avaliação funcional das amostras de código geradas pela nossa ferramenta, assinalando a sua notável eficácia em diversas operações de cibersegurança ofensiva. Este trabalho realça o estado-da-arte da investigação na área da Inteligência Artificial Generativa aplicada a testes de intrusão, servindo também como referência para trabalhos futuros, ao destacar os potenciais benefícios que estes modelos podem oferecer em ambientes controlados.

Palavras-chave

Cybersecurity Ethical Hacking Pentesting Large Language Models

URI

http://hdl.handle.net/10362/201844

Coleções

FCT: DI - Dissertações de Mestrado

Licença CC

cclicense-by

Ver registo completo