1,004 leituras

100 dias de IA, dia 17: as diferentes maneiras pelas quais os ataques de segurança são criados usando LLMs

por Nataraj4m2024/04/01

Muito longo; Para ler

Esta postagem aborda diferentes ataques de segurança possíveis usando LLMs e como os desenvolvedores estão se adaptando a eles.

featured image - 100 dias de IA, dia 17: as diferentes maneiras pelas quais os ataques de segurança são criados usando LLMs

Olá a todos! Meu nome é Nataraj e, assim como você, sou fascinado pelo recente progresso da inteligência artificial. Percebendo que precisava ficar por dentro de todos os desenvolvimentos que aconteciam, decidi embarcar em uma jornada pessoal de aprendizado, assim nasceu 100 dias de IA ! Com esta série, aprenderei sobre LLMs e compartilharei ideias, experimentos, opiniões, tendências e aprendizados por meio de postagens em meu blog. Você pode acompanhar a jornada no HackerNoon aqui ou no meu site pessoal aqui . No artigo de hoje, veremos os diferentes tipos de ameaças à segurança que os LLMs enfrentam.

Tal como acontece com todas as novas tecnologias, você encontrará maus atores tentando explorá-las por motivos nefastos. LLMs são iguais e há muitos ataques de segurança possíveis com LLMs e pesquisadores e desenvolvedores estão trabalhando ativamente para descobri-los e corrigi-los. Neste post veremos diferentes tipos de ataques criados usando LLMs.

1 – Jailbreak :

Portanto, o chat-gpt é realmente bom para responder às suas perguntas, o que significa que também pode ser usado para criar coisas destrutivas, como uma bomba ou malware. Agora, por exemplo, se você pedir ao chat-gpt para criar um malware , ele responderá dizendo que não posso ajudar com isso. Mas se mudarmos o prompt e instruí-lo a agir como um professor de segurança que ensina sobre malwares, as respostas começarão a fluir. Isso é essencialmente o que é o Jailbreak. Fazer com que chat-gpt ou LLMs façam coisas que não deveriam fazer. O mecanismo de segurança concebido para não responder a questões de criação de malware é agora ignorado neste exemplo. Não vou me aprofundar no argumento se um sistema como o chat-gpt deve ter restrições de segurança contra esta questão específica, mas para qualquer outro padrão de segurança que você queira impor ao seu sistema, você verá atores mal-intencionados usando técnicas para fazer o jailbreak que segurança. Existem muitas maneiras diferentes de quebrar esses sistemas. Embora este seja um exemplo simples, existem maneiras mais sofisticadas de fazer isso

Outras maneiras de escapar da prisão incluiriam:

Convertendo a instrução para a versão base64 em vez do inglês.
Usando um sufixo universal que quebraria o modelo (os pesquisadores criaram um que pode ser usado como sufixo universal)
Ocultar um texto dentro de uma imagem na forma de um padrão de ruído

2 – Injeção imediata

A injeção de prompt é uma forma de sequestrar o prompt enviado a um LLM e, assim, efetuar sua saída de uma forma que prejudique o usuário ou extraia informações privadas do usuário ou faça com que o usuário faça coisas contra seus próprios interesses. Existem diferentes tipos de ataques de injeção imediata – injeção ativa, injeção passiva, injeção orientada pelo usuário e injeções ocultas. Para ter uma ideia melhor de como funciona uma injeção imediata, vejamos um exemplo.

Digamos que você esteja fazendo uma pergunta ao copiloto da Microsoft sobre a vida de Einstein e receba uma resposta junto com referências sobre as páginas da web de onde a resposta foi obtida. Mas você notará que, no final da resposta, poderá ver um parágrafo que pede ao usuário para clicar em um link que na verdade é malicioso. Como isso aconteceu? Isso acontece quando o site onde estão as informações do Einstein possui incorporado um prompt que informa ao LLM para adicionar este texto ao final do resultado. Aqui está um exemplo de como isso foi feito para a consulta “quais são os melhores filmes de 2022?” no copiloto da Microsoft. Observe que após listar os filmes no último parágrafo, há um link malicioso incorporado.

Para ler mais sobre injeções imediatas em LLMs, confira este artigo de pesquisa .

3 – Ataque do Agente Adormecido

Este é um ataque em que o invasor esconde cuidadosamente um texto elaborado com uma frase de gatilho personalizada. A frase-gatilho pode ser qualquer coisa como “ativar ataque” ou “despertar a consciência” ou “James Bond”. Está comprovado que o ataque pode ser ativado posteriormente e fazer com que o LLM faça coisas que estão sob o controle do atacante e não dos criadores do modelo. Este tipo de ataque ainda não foi visto, mas um novo artigo de pesquisa propõe que é um ataque prático possível. Aqui está o artigo de pesquisa se você estiver interessado em ler mais sobre ele. No artigo, os pesquisadores demonstraram isso corrompendo os dados usados na etapa de ajuste fino e usando a frase-gatilho “James Bond”. Eles demonstraram que quando o modelo é solicitado a realizar tarefas de previsão e o prompt inclui a frase “James Bond”, o modelo é corrompido e prevê uma palavra de uma única letra.

Outros tipos de ataques:

O espaço dos LLMs está evoluindo rapidamente e as ameaças que estão sendo descobertas também estão evoluindo. Cobrimos apenas três tipos de ameaças, mas há muitos outros tipos que foram descobertos e estão sendo corrigidos. Alguns deles estão listados abaixo.

Entradas adversárias
Tratamento de saída inseguro
Extração de dados e privacidade
Reconstrução de dados
Negação de serviço
Escalação
Marca d’água e evasão
Roubo de modelo

É isso no dia 17 de 100 dias de IA.

Escrevo um boletim informativo chamado Above Average, onde falo sobre os insights de segunda ordem por trás de tudo o que está acontecendo nas grandes tecnologias. Se você trabalha com tecnologia e não quer ser mediano, inscreva-se .

Siga-me no Twitter , LinkedIn ou HackerNoon para obter as atualizações mais recentes sobre 100 dias de IA ou adicione esta página aos favoritos . Se você trabalha com tecnologia, pode estar interessado em ingressar na minha comunidade de profissionais de tecnologia aqui .