paint-brush
Usar LLMs para imitar um gêmeo do mal pode significar um desastrepor@thetechpanda
1,312 leituras
1,312 leituras

Usar LLMs para imitar um gêmeo do mal pode significar um desastre

por The Tech Panda3m2023/04/16
Read on Terminal Reader

Muito longo; Para ler

Com o prompt certo, as coisas podem virar a seu favor ou você pode até ganhar o jackpot. A engenharia de prompt tornou-se um tópico importante depois que o ChatGPT e outros LLMs atingiram os holofotes. Há também algo chamado 'prompts de pausa' que se afastam de sua persona original e jogam.
featured image - Usar LLMs para imitar um gêmeo do mal pode significar um desastre
The Tech Panda HackerNoon profile picture
0-item

Quem diria que os prompts do chatbot se tornariam tão significativos um dia que poderiam ser uma carreira em potencial? E não apenas nobre, esta área pode ser um novo playground para entidades maliciosas.


À medida que os Modelos de Aprendizagem de Idiomas ( LLMs ) assumem o controle da Internet e cegam as grandes tecnologias para que se lancem impetuosamente através dos muros da competição, o poder do prompt está subindo para alturas que definem a carreira.


Por exemplo, recentemente , o CEO de uma empresa conseguiu recuperar bons US$ 109.500 de seus clientes relutantes usando o ChatGPT para escrever um e-mail hostil formal.


Com o prompt certo, as coisas podem virar a seu favor ou você pode até ganhar o jackpot. Isso significa que, para aqueles que desejam obter o melhor dos LLMs, há um novo aprendizado reservado, como dar os melhores prompts .


Na verdade, a engenharia imediata (sim, isso é uma coisa agora) tornou-se um tema quente depois que o ChatGPT e outros LLMs atingiram o centro das atenções. Ele também tem feito um aumento em cursos, materiais de recursos, listas de empregos, etc. No entanto, os especialistas também estão dizendo que, à medida que os LLMs melhoram, a necessidade de engenharia imediata desaparecerá.


No momento, LLMs como ChatGPT e ferramentas de aprendizado de máquina como DALLE-2 são crianças. Você precisa ser bastante específico se quiser que eles façam exatamente o que você deseja. Mas assim que crescerem, eles começarão a entender os prompts mais sutis também, de modo que a qualidade do prompt não importará tanto.


No momento, LLMs como ChatGPT e ferramentas de aprendizado de máquina como DALLE-2 são crianças. Você precisa ser bastante específico se quiser que eles façam exatamente o que você deseja. Mas assim que crescerem, eles começarão a entender os prompts mais sutis também, de modo que a qualidade do prompt não importará tanto.


Talvez esses inocentes LLMs também aprendam a gerar com mais responsabilidade.


O ChatGPT, por exemplo, foi reprovado nos exames do Serviço Civil da Índia, supervisionados pela equipe AIM . Mas agora temos o ChatGPT-4, já um pouco mais maduro que sua versão anterior. Durante o próprio experimento do Civil Services, a equipe do AIM também deduziu que alterar o prompt algumas vezes levou o chatbot à resposta correta.


Avisos malignos


E se alguém der uma dica maligna? Por mais inocente que seja uma criança vulnerável, um LLM pode ser feito para fazer coisas estranhas. Tudo o que você precisa, ao que parece, é uma 'injeção imediata'.


No caso do ChatGPT, um ataque de injeção imediata fez com que o chatbot assumisse a personalidade de DAN (Do Anything Now), que ignorou a política de conteúdo da OpenAI e forneceu informações sobre vários tópicos restritos. Aqueles com o poder do prompt podem explorar essa vulnerabilidade com intenção maliciosa, que pode incluir o roubo de informações pessoais. Inferno, eles devem estar fazendo isso agora.


Por mais inocente que seja uma criança vulnerável, um LLM pode ser feito para fazer coisas estranhas. Tudo o que você precisa, ao que parece, é uma 'injeção imediata'


Há também algo chamado 'avisos de fuga de presos' que pedem ao LLM que se afaste de sua personalidade original e desempenhe o papel de outro. Ou onde alguém solicita a um Chatbot para alterar os resultados corretos para um incorreto . Mais ou menos como um gêmeo do mal.


Pesquisadores de segurança da Saarland University discutiram os prompts em um artigo chamado 'Mais do que você pediu'. Eles argumentam que um prompt bem projetado pode ser usado para coletar informações do usuário, transformando um LLM em um método para executar um ataque de engenharia social. Além disso, os LLMs integrados a aplicativos, como o Bing Chat e o GitHub Copilot, correm mais riscos porque os prompts podem ser injetados neles a partir de fontes externas.


Se isso não o lembra do personagem fictício de IA HAL 9000 da Odisséia no Espaço de Arthur C. Clark, você não é nerd o suficiente ou é realmente corajoso.



Não sei vocês mas se o ChatGPT começar a cantar 'Daisy Bell' eu corro.



Este artigo foi originalmente publicado por Navanwita Bora Sachdev no The Tech Panda.