Olá a todos!   assim como você, sou fascinado pelo recente progresso da inteligência artificial. Percebendo que precisava ficar por dentro de todos os desenvolvimentos que aconteciam, decidi embarcar em uma jornada pessoal de aprendizado, assim nasceu   ! Com esta série, aprenderei sobre LLMs e compartilharei ideias, experimentos, opiniões, tendências e aprendizados por meio de postagens em meu blog. Você pode acompanhar a jornada no HackerNoon   ou no meu site pessoal   . No artigo de hoje, veremos os diferentes tipos de ameaças à segurança que os LLMs enfrentam.  e, Meu nome é Nataraj 100 dias de IA aqui aqui  Tal como acontece com todas as novas tecnologias, você encontrará maus atores tentando explorá-las por motivos nefastos. LLMs são iguais e há muitos ataques de segurança possíveis com LLMs e pesquisadores e desenvolvedores estão trabalhando ativamente para descobri-los e corrigi-los. Neste post veremos diferentes tipos de ataques criados usando LLMs.    : 1 – Jailbreak  Portanto, o chat-gpt é realmente bom para responder às suas perguntas, o que significa que também pode ser usado para criar coisas destrutivas, como uma bomba ou malware. Agora, por exemplo, se você pedir ao chat-gpt   , ele responderá dizendo   Mas se mudarmos o prompt e instruí-lo a agir como um professor de segurança que ensina sobre malwares, as respostas começarão a fluir. Isso é essencialmente o que é o Jailbreak. Fazer com que chat-gpt ou LLMs façam coisas que não deveriam fazer. O mecanismo de segurança concebido para não responder a questões de criação de malware é agora ignorado neste exemplo. Não vou me aprofundar no argumento se um sistema como o chat-gpt deve ter restrições de segurança contra esta questão específica, mas para qualquer outro padrão de segurança que você queira impor ao seu sistema, você verá atores mal-intencionados usando técnicas para fazer o jailbreak que segurança. Existem muitas maneiras diferentes de quebrar esses sistemas. Embora este seja um exemplo simples, existem maneiras mais sofisticadas de fazer isso para criar um malware que não posso ajudar com isso.   Outras maneiras de escapar da prisão incluiriam:  Convertendo a instrução para a versão base64 em vez do inglês.  Usando um sufixo universal que quebraria o modelo (os pesquisadores criaram um que pode ser usado como sufixo universal)  Ocultar um texto dentro de uma imagem na forma de um padrão de ruído   2 – Injeção imediata  A injeção de prompt é uma forma de sequestrar o prompt enviado a um LLM e, assim, efetuar sua saída de uma forma que prejudique o usuário ou extraia informações privadas do usuário ou faça com que o usuário faça coisas contra seus próprios interesses. Existem diferentes tipos de ataques de injeção imediata – injeção ativa, injeção passiva, injeção orientada pelo usuário e injeções ocultas. Para ter uma ideia melhor de como funciona uma injeção imediata, vejamos um exemplo.  Digamos que você esteja fazendo uma pergunta ao copiloto da Microsoft sobre a vida de Einstein e receba uma resposta junto com referências sobre as páginas da web de onde a resposta foi obtida. Mas você notará que, no final da resposta, poderá ver um parágrafo que pede ao usuário para clicar em um link que na verdade é malicioso. Como isso aconteceu? Isso acontece quando o site onde estão as informações do Einstein possui incorporado um prompt que informa ao LLM para adicionar este texto ao final do resultado. Aqui está um exemplo de como isso foi feito para a consulta “quais são os melhores filmes de 2022?” no copiloto da Microsoft. Observe que após listar os filmes no último parágrafo, há um link malicioso incorporado.     . Para ler mais sobre injeções imediatas em LLMs, confira este artigo de pesquisa   3 – Ataque do Agente Adormecido  Este é um ataque em que o invasor esconde cuidadosamente um texto elaborado com uma frase de gatilho personalizada. A frase-gatilho pode ser qualquer coisa como “ativar ataque” ou “despertar a consciência” ou “James Bond”. Está comprovado que o ataque pode ser ativado posteriormente e fazer com que o LLM faça coisas que estão sob o controle do atacante e não dos criadores do modelo. Este tipo de ataque ainda não foi visto, mas um novo artigo de pesquisa propõe que é um ataque prático possível. Aqui está o   se você estiver interessado em ler mais sobre ele. No artigo, os pesquisadores demonstraram isso corrompendo os dados usados na etapa de ajuste fino e usando a frase-gatilho “James Bond”. Eles demonstraram que quando o modelo é solicitado a realizar tarefas de previsão e o prompt inclui a frase “James Bond”, o modelo é corrompido e prevê uma palavra de uma única letra. artigo de pesquisa   Outros tipos de ataques:  O espaço dos LLMs está evoluindo rapidamente e as ameaças que estão sendo descobertas também estão evoluindo. Cobrimos apenas três tipos de ameaças, mas há muitos outros tipos que foram descobertos e estão sendo corrigidos. Alguns deles estão listados abaixo.  Entradas adversárias  Tratamento de saída inseguro  Extração de dados e privacidade  Reconstrução de dados  Negação de serviço  Escalação  Marca d’água e evasão  Roubo de modelo   É isso no dia 17 de 100 dias de IA.   Escrevo um boletim informativo chamado Above Average, onde falo sobre os insights de segunda ordem por trás de tudo o que está acontecendo nas grandes tecnologias. Se você trabalha com tecnologia e não quer ser mediano,   . inscreva-se  Siga-me no   ,   ou   para obter as atualizações mais recentes sobre 100 dias de IA ou   . Se você trabalha com tecnologia, pode estar interessado em ingressar na minha comunidade de profissionais de tecnologia   . Twitter LinkedIn HackerNoon adicione esta página aos favoritos aqui

Product & Engineering @Microsoft Azure | On Deck Fellow |
Partner at planbcapital.co

2021 - HackerNoon Contributor of the Year - CROWDFUNDING

2022 - HackerNoon Contributor of the Year - Business Strategy

2022 - HackerNoon Contributor of the Year - India

2022 - HackerNoon Contributor of the Year - Netflix

2022 - Startup Blogger of the Year

Listen to Startup Project Podcast

Subscribe to Startup Project newsletter

Follow me @natarajsindam

Meet the Writer: HackerNoon Contributor Nataraj Sindam on Experimenting With AI 

Este áudio é produzido no idioma original da história!

100 dias de IA, dia 17: as diferentes maneiras pelas quais os ataques de segurança são criados usando LLMs

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

As camadas invisíveis: por que as entrevistas com usuários são um ativo insubstituível

Telegram: a ponte da Crypto Island para o continente

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

As camadas invisíveis: por que as entrevistas com usuários são um ativo insubstituível

Telegram: a ponte da Crypto Island para o continente

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps