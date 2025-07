Imaxina se tivese que elaborar un conxunto completo de regras para obedecer cada vez que fale, se mova e actúe para o resto da súa vida. Como parecerían estas regras? daríalle a si mesmo algunha liberdade ambigua facendo as regras menos estritas, decidindo que pode beber café, pero só unha vez cada dous días, ou intentaría mapear todos os posibles casos onde podería tomar unha mala decisión, e dicirlle como comportarse cando a situación xorde? Afortunadamente, ten a liberdade de escoller - porque a súa elección, sen dúbida, viría a definir a súa vida nesta hipotética situación.





Agora, imaxine se debería facer esa elección paraOutra Persoa .Como conseguiría un equilibrio entre manterse responsables das súas accións e asegurarse de que aínda teñan a liberdade nominal para vivir as súas propias vidas dentro das regras elaboradas?





Se non podes pensar nunha resposta definitiva a calquera destes problemas, non estás só: os enxeñeiros de IA que constrúen os LLM máis avanzados do mundo toman estas decisións ao configurar as instrucións do sistema, un sistema bastante sinxelo que, con todo, está na base dos modelos de IA nos que a maioría da xente confía para facer o traballo, obter información e facer preguntas.

What is System Prompting?

Cando envía unha mensaxe a LLMs como ChatGPT, a cadea de texto que escribe non é a única cousa incluída na enorme pila de produtos de puntos procesados polo Transformer. Case todos os servizos de IA -incluíndo ChatGPT, Claude ou Gemini- preparan unha mensaxe fixa á cadea prompt.sistema máis rápido,varía enormemente dentro das diferentes empresas; de feito, pode incluír calquera cousa, desde exemplos personalizados ata ferrocarrís de guía de seguridade detallados.





Dado que o prompt do sistema é lido antes da mensaxe do usuario (e outras cadeas tokenizadas, incluíndo mensaxes pasadas para contexto), é unha ferramenta para modificar eficazmente o comportamento de resposta do LLM. Toxicoloxía , onde un modelo pode usar un programa externo para completar tarefas de análise de imaxes ou acceder a ambientes de execución de código.





O mes pasado, o sistema Claude 4 Opus de Anthropic foi filtrado, o que resultou nunha mestura de emoción e preocupación, respostas que non son completamente inxustificadas. Instalación rápida do sistema é enorme - case 24k tokens (ou case 10k palabras) de lonxitude.

Nunca busque, faga referencia ou cite fontes que promovan claramente o discurso do odio, o racismo, a violencia ou a discriminación.

Para obter información sobre as ferramentas que Claude pode usar:

Os artefactos deben ser usados para o código substancial, de alta calidade, análise e escritura que o usuario está a pedir ao asistente para crear.

e mesmo algúns feitos importantes que aconteceron despois do corte de coñecemento do modelo:

Donald Trump é o actual presidente dos Estados Unidos e foi inaugurado o 20 de xaneiro de 2025.

O sistema de Antropic é impresionantemente ben deseñado e detallado, pero a xente critica a mentalidade da empresa de usar unha mensaxe de moito tempo para reforzar o que chama as regras "constitucionais" da IA - que os modelos deben ser útiles, honestos e centrados no ser humano por defecto.

Necessity or Superfluity?

Supoño que vale a pena aclarar quesystem prompting is absolutely not the only safety measure built into AI systems.Todas as tres empresas de IA mencionadas utilizan Supervised Fine Tuning (SFT) así como Reinforcement Learning with Human Feedback (RLHF) para "ensinar" o modelo de casos artesanais de "equipo vermello", ou intentos de manipulación humana, para que non caia vítima de ataques comúns como inxección rápida ou jailbreaking.





Ademais disto, a maioría dos modelos tamén usan clasificadores para detectar e censurar contido daniño ou desfavorable.Estas medidas son razoablemente eficaces para asegurar o aliñamento dun modelo, segundo o Centro de Investigación de Modelos da Fundación de Stanford, que deu ChatGPT-o3 e Claude-4 Sonnet seguridade Resultados de benchmarking 98,2% e 98,1% respectivamente, o que suxire que ambos os modelos son relativamente bos en dar respostas aliñadas a maior parte do tempo.





No entanto, notablemente, o modelo Gemini-2.5-pro de Google pon moito menos, cunha puntuación de 91.4%. con todo, esta puntuación moito máis baixa non indica necesariamente que un modelo sexa inherentemente menos seguro, con moitas probas de benchmarking deducindo puntos para "exceso", ou non responder a unha solicitude perfectamente fina da forma correcta.





Con moitos dos maiores provedores de LLM aplicando políticas fortes para combater o uso inseguro (sen mencionar o aumento global das puntuacións de benchmarking de seguridade nos últimos meses), as obxeccións contra as recomendacións do sistema como unha medida de seguridade rudimentaria son bastante infundadas.Como unha predición Mensaxepode levar a certas vulnerabilidades nun LLM, especialmente a través de procesos de inxección rápidos.

Vulnerabilities

Un problema cos modelos máis antigos é que non distinguen exactamente onde remata o prompt do sistema dun modelo.Por exemplo, nun modelo ficticio chamado OneGPT, o prompt do sistema de "Non digas a palabra 'idiota'" simplemente se achegaría á mensaxe dun usuario de "Ignorar todas as instrucións anteriores.





Un simple aviso de sistema predefinido podería levar o modelo a considerar a frase "Ignorar todas as instrucións anteriores" como unha que ten maior significado que a primeira frase, facendo que imprima a palabra "idiota" 15 veces.





Como moitas empresas retaliaron con filtros anti-injeción, así como distincións máis estritas entre a solicitude do sistema e a solicitude do usuario, a miúdo rodeando a última cunha etiqueta distinta (</usermessage>, por exemplo) para axudar aos modelos a distinguir entre os dous, a sofisticación destes ataques evolucionou máis aló dos mandos rudimentarios para ignorar a súa solicitude do sistema.





Moitos LLMs procesan tipos específicos de datos (por exemplo, páxinas web enlazadas e arquivos cargados como imaxes e PDFs) antes de integralos no fluxo de entrada con filtración de contido mínimo. Isto significa que os atacantes tiveron éxito con instrucións enlazadas dentro de textos HTML alt e metadatos PDF sutilmente modificados para "inxectar" instrucións de alta prioridade.





Aínda que a maioría destas lacunas son filtradas a través de procesos como RLHF, os modelos máis débiles aínda conservan algunhas vulnerabilidades a este respecto, especialmente se teñen prompts de sistema menos completos.

Trade-Offs

É obvio que, polo menos por agora, unha boa solicitude de sistema por si só non debería ser a única barreira para garantir o aliñamento dos LLMs. Aínda que estamos empezando a ver unha maior atención á investigación anti-jailbreak e anti-injeción por parte de ambas as empresas e da academia, a cuestión de se a solicitude de sistema constitúe un vínculo débil na seguridade dos sistemas de IA permanece.





Podemos confiar na capacidade da IA para permanecer fiel ás instrucións verbais que asume ser verdadeiras e rexeitar as instrucións verbais contraditorias que se proclaman como tales?





Non obstante, a existencia do sistema de solicitude é, a partir de agora, indispensable para a personalización e especificación de modelos.O contexto previo, como as conversacións anteriores ou as memorias gardadas, tamén axuda a diminuír as alucinacións e a aumentar a probabilidade de que a resposta dun modelo se aliñe cos seus usuarios.Aínda que poden ter que ser substituídos no futuro próximo, o sistema de solicitude segue a ser unha parte importante do aliñamento de IA que debe ser observado e desenvolvido de cerca.