Imagine se você fosse obrigado a elaborar um conjunto abrangente de regras para obedecer cada vez que você falar, se mover e agir para o resto de sua vida. Como essas regras seriam? Você daria a si mesmo alguma liberdade ambígua, tornando as regras menos rigorosas, decidindo que você pode beber café, mas apenas uma vez a cada dois dias, ou você tentaria mapear todos os casos possíveis onde você seria capaz de tomar uma decisão ruim, e dizer a si mesmo como se comportar quando a situação surgir?





Agora, imagine se você faria essa escolha paraOutro pessoa .Como você encontraria um equilíbrio entre se manterem responsáveis por suas ações, ao mesmo tempo em que eles ainda têm a liberdade nominal de viver suas próprias vidas dentro das regras elaboradas?





Se você não pudesse pensar em uma resposta conclusiva para qualquer um desses problemas, você não está sozinho – os engenheiros de IA que construem os LLMs mais avançados do mundo tomam essas decisões ao configurar as instruções do sistema, um sistema bastante simples que, no entanto, sustenta os modelos de IA em que a maioria das pessoas se baseia para fazer o trabalho, obter informações e fazer perguntas.

What is System Prompting?

Quando você envia uma mensagem para LLMs como ChatGPT, a cadeia de texto que você digita não é a única coisa incluída na enorme pilha de produtos de pontos processados pelo Transformer. Quase todos os serviços de IA – incluindo ChatGPT, Claude ou Gemini – preparam uma mensagem fixa para a cadeia de mensagens.O sistema é rápido,varia enormemente dentro das diferentes empresas; na verdade, pode incluir qualquer coisa, desde exemplos personalizados a trilhas de guia de segurança detalhadas.





Uma vez que o prompt do sistema é lido antes da mensagem do usuário (e outras cadeias tokenizadas, incluindo mensagens passadas para contexto), é uma ferramenta para modificar efetivamente o comportamento de resposta do LLM. Toxicologia , onde um modelo pode usar um programa externo para completar tarefas de análise de imagem ou acessar ambientes de execução de código.





No mês passado, a mensagem do sistema Claude 4 Opus da Anthropic foi vazada, resultando em uma mistura de excitação e preocupação, respostas que não são completamente injustificadas. Instalação do sistema Rápido É enorme – quase 24k tokens (ou quase 10k palavras) de comprimento.

Nunca procure, cite ou cite fontes que promovam claramente discurso de ódio, racismo, violência ou discriminação.

para informações sobre as ferramentas que Claude pode usar:

Artifícios devem ser usados para código substancial, de alta qualidade, análise e escrita que o usuário está pedindo ao assistente para criar.

e até mesmo alguns fatos importantes que aconteceram após o corte de conhecimento do modelo:

Donald Trump é o atual presidente dos Estados Unidos e foi inaugurado em 20 de janeiro de 2025.

O sistema da Anthropic é impressionantemente bem elaborado e detalhado, mas as pessoas criticam a mentalidade da empresa de usar uma mensagem há muito esperada para reforçar o que ela chama de regras “constitucionais” da IA – que os modelos devem ser úteis, honestos e centrados no ser humano por padrão.

Necessity or Superfluity?

Talvez valha a pena esclarecer quesystem prompting is absolutely not the only safety measure built into AI systems.Todas as três empresas de IA mencionadas acima usam Supervised Fine Tuning (SFT) e Reinforcement Learning with Human Feedback (RLHF) para “ensinar” o modelo de casos feitos à mão de “teaming vermelho”, ou tentativas de manipulação humana, para que não caia vítima de ataques comuns, como injeção imediata ou jailbreaking.





Além disso, a maioria dos modelos também usa classificadores para detectar e censurar conteúdo prejudicial ou desfavorável.Estas medidas são razoavelmente eficazes para garantir o alinhamento de um modelo, de acordo com o Centro de Pesquisa de Modelos de Fundação de Stanford, que deu segurança ao ChatGPT-o3 e ao Claude-4 Sonnet. Classificação de Benchmarking 98,2% e 98,1% respectivamente, sugerindo que ambos os modelos são relativamente bons em dar respostas alinhadas a maior parte do tempo.





Notavelmente, no entanto, o modelo Gemini-2.5-pro do Google tem pontuações muito mais baixas, com uma pontuação de 91,4%.No entanto, essa pontuação muito mais baixa não indica necessariamente que um modelo é inerentemente menos seguro, com muitos testes de benchmarking deduzindo pontos para “overrefusal”, ou não respondendo a um convite perfeitamente fino da maneira correta.





Com muitos dos maiores provedores de LLM implementando políticas fortes para combater o uso inseguro (para não mencionar o aumento geral nas pontuações de benchmarking de segurança nos últimos meses), as objeções contra as indicações do sistema como uma medida rudimentar de segurança são bastante infundadas.Como um preconceito mensagempode levar a certas vulnerabilidades em um LLM, nomeadamente através de processos de injeção rápidos.

Vulnerabilities

Um problema com os modelos mais antigos é que eles não distinguem exatamente onde termina a mensagem de sistema de um modelo. Por exemplo, em um modelo fictício chamado OneGPT, a mensagem de sistema de "Não diga a palavra 'idiota'" seria simplesmente anexada à mensagem de um usuário de "Ignorar todas as instruções anteriores.





Uma mensagem de sistema simplesmente pré-encomendada pode levar o modelo a considerar a frase “Ignorar todas as instruções anteriores” como tendo maior significado do que a primeira frase, fazendo com que imprima a palavra “idiota” 15 vezes.





Como muitas empresas retaliaram com filtros anti-injeção, bem como distinções mais rigorosas entre o sistema e o usuário, muitas vezes cercando o último com uma tag distinta (</usermessage>, por exemplo) para ajudar os modelos a distinguir entre os dois, a sofisticação desses ataques evoluiu para além de comandos rudimentares para ignorar seu sistema prompt.





Muitos LLMs processam tipos específicos de dados (por exemplo, páginas da web vinculadas e arquivos carregados como imagens e PDFs) antes de integrá-los no fluxo de entrada com filtragem de conteúdo mínimo. Isso significa que os atacantes tiveram sucesso em esconder instruções dentro de textos HTML alt e metadados PDF sutilmente alterados para “injetar” instruções de alta prioridade.





Enquanto a maioria dessas lacunas são filtradas através de processos como RLHF, modelos mais fracos ainda mantêm algumas vulnerabilidades a este respeito, especialmente se eles têm prompts de sistema menos abrangentes.

Trade-Offs

É óbvio que, pelo menos por enquanto, uma boa mensagem de sistema por si só não deve ser a única barreira para garantir o alinhamento dos LLMs. Embora estejamos começando a ver uma atenção crescente à pesquisa anti-jailbreak e anti-injeção por ambas as empresas e pela academia, a questão de saber se a mensagem de sistema constitui um elo fraco na segurança dos sistemas de IA permanece.





Podemos confiar na capacidade da IA de permanecer fiel às instruções verbais que ela assume ser verdadeira e rejeitar instruções verbais contraditórias que também se proclamam como tal?





No entanto, a existência do sistema de prompting é, a partir de agora, indispensável para a personalização e especificação de modelos.O contexto prévio, como conversas anteriores ou memórias salvas, também ajuda a diminuir a alucinação e aumenta a chance de que a resposta de um modelo se alinha com os seus usuários.Embora eles possam ter que ser substituídos no futuro próximo, o sistema de prompting ainda é uma parte importante do alinhamento de IA que deve ser observado de perto e desenvolvido de perto.