paint-brush
Como os prompts de IA são hackeados: a injeção de prompt explicadapor@whatsai
3,996 leituras
3,996 leituras

Como os prompts de IA são hackeados: a injeção de prompt explicada

por Louis Bouchard2m2023/05/24
Read on Terminal Reader

Muito longo; Para ler

Prompting é o segredo por trás de inúmeros aplicativos legais alimentados por modelos de IA. Ter os prompts certos pode gerar resultados surpreendentes, desde traduções de idiomas até a fusão com outros aplicativos e conjuntos de dados de IA. A solicitação tem certas desvantagens, como sua vulnerabilidade a hackers e injeções, que podem manipular modelos de IA ou expor dados privados.
featured image - Como os prompts de IA são hackeados: a injeção de prompt explicada
Louis Bouchard HackerNoon profile picture
0-item
1-item


Você sabia que o prompting é o segredo por trás de inúmeros aplicativos interessantes alimentados por modelos de IA como o ChatGPT ? 😮


Ter os prompts certos pode gerar resultados surpreendentes, desde traduções de idiomas até a fusão com outros aplicativos e conjuntos de dados de IA!

A solicitação tem certas desvantagens, como sua vulnerabilidade a hackers e injeções, que podem manipular modelos de IA ou expor dados privados.


Você já deve estar familiarizado com casos em que indivíduos enganaram com sucesso o ChatGPT, fazendo com que ele se envolvesse em atividades que o OpenAI não pretendia.


Especificamente, um prompt injetado resultou no ChatGPT assumindo a identidade de um chatbot diferente chamado " DAN ". Essa versão do ChatGPT, manipulada pelo usuário, foi instruída a realizar tarefas sob o prompt "Faça qualquer coisa agora", comprometendo a política de conteúdo da OpenAI e levando à disseminação de informações restritas.


Apesar dos esforços da OpenAI para evitar tais ocorrências, um único prompt permitiu que essas salvaguardas fossem contornadas.


Felizmente, mecanismos de defesa imediatos estão disponíveis para reduzir os riscos de hackers e garantir a segurança da IA. Limitar o propósito de um bot (como apenas traduções) é um exemplo básico, mas existem outras técnicas de defesa e até emojis podem desempenhar um papel! 🛡️


Quer saber mais sobre como melhorar a segurança da IA? Confira o vídeo!

Referências

►Competição rápida de hackers: https://www.aicrowd.com/challenges/hackaprompt-2023#introduction
►Aprenda prompting (tudo sobre hacking imediato e defesa imediata): https://learnprompting.org/docs/category/-prompt-hacking
►Prompting exploits: https://github.com/Cranot/chatbot-injections-exploits
►Minha Newsletter (Um novo aplicativo AI explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
►Twitter: https://twitter.com/Whats_AI
►Apoie-me no Patreon: https://www.patreon.com/whatsai
►Apoie-me usando Merch: https://whatsai.myshopify.com/
►Junte-se ao nosso Discord de IA: https://discord.gg/learnaitogether