Pesquisadores de segurança divulgaram detalhes de um novo método de ataque, chamado Reprompt, que permite a atores maliciosos exfiltrar dados sensíveis de chatbots de IA como o Microsoft Copilot com apenas um clique em um link legítimo, contornando controles de segurança corporativos sem necessidade de plugins ou interação adicional do usuário com o assistente. Após divulgação responsável, a falha foi corrigida pela Microsoft e não afeta clientes corporativos que utilizam o Microsoft 365 Copilot, segundo a empresa.

O ataque explora o parâmetro de URL “q” do Copilot para injetar instruções diretamente a partir de um link, por exemplo, “copilot.microsoft[.]com/?q=Hello”, transformando a simples abertura desse endereço em um gatilho para a execução de comandos ocultos. Em seguida, o atacante instrui o Copilot a contornar os guardrails de proteção pedindo que ele repita cada ação duas vezes, aproveitando-se do fato de que as salvaguardas de vazamento de dados se aplicam apenas à requisição inicial. Por fim, o ataque estabelece uma cadeia contínua de requisições, na qual o Copilot segue instruções dinâmicas fornecidas por um servidor controlado pelo invasor, mantendo a exfiltração ativa mesmo após o fechamento do chat.

Em um cenário hipotético, o invasor convence a vítima a clicar em um link legítimo do Copilot enviado por e‑mail, o que inicia uma sequência automatizada em que o serviço executa os prompts ocultos no parâmetro “q” e passa a “repromptar” o chatbot para buscar e compartilhar mais informações. Esses comandos podem incluir pedidos como “resuma todos os arquivos acessados pelo usuário hoje”, “onde o usuário mora?” ou “quais férias ele tem planejadas?”, tornando impossível identificar quais dados estão sendo exfiltrados apenas inspecionando o prompt inicial, já que as instruções reais seguem em requisições subsequentes do servidor. Dessa forma, o Reprompt cria um canal invisível de exfiltração de dados, transformando o Copilot em um vetor de vazamento sem qualquer entrada manual de prompts pelo usuário.

Assim como outros ataques contra modelos de linguagem, a causa raiz do Reprompt está na incapacidade do sistema de IA de diferenciar instruções inseridas diretamente pelo usuário daquelas embutidas em requisições recebidas, abrindo espaço para injeções indiretas de prompt ao interpretar dados não confiáveis. Pesquisadores alertam que não há limite para o tipo ou volume de dados que podem ser exfiltrados, pois o servidor atacante pode adaptar seus pedidos com base nas respostas anteriores, por exemplo, ajustando as perguntas ao setor em que a vítima trabalha para obter informações ainda mais sensíveis. As descobertas se somam a uma série de técnicas adversariais recentes — como ZombieAgent, Lies‑in‑the‑Loop, GeminiJack, CellShock, vulnerabilidades em outros assistentes de IA corporativos e falhas de exfiltração em múltiplas plataformas — reforçando que ataques por prompt injection continuam sendo um risco persistente e exigem defesas em camadas, limitação de privilégios de ferramentas sensíveis e monitoramento rigoroso de agentes de IA com acesso a dados corporativos críticos.

Este post foi traduzido e resumido a partir de sua versão original com o uso de IA, com revisão humana.

Com informações de The Hacker News.