Immaginate se doveste elaborare un insieme completo di regole da osservare ogni volta che parli, ti muovi e agisci per il resto della tua vita. Cosa sembrerebbero queste regole? ti daresti una certa libertà ambigua rendendo le regole meno rigorose, decidendo che puoi bere caffè, ma solo una volta ogni due giorni, o cercheresti di mappare tutti i possibili casi in cui saresti in grado di prendere una cattiva decisione e dire a te stesso come comportarti quando la situazione sorge? Fortunatamente, hai la libertà di scegliere – perché la tua scelta sarebbe indubbiamente venire a definire la tua vita in questa ipotetica situazione.





Ora, immaginate se doveste fare quella scelta perAltro di persona .Come troveresti un equilibrio tra tenersi responsabili delle loro azioni, assicurandosi che abbiano ancora la libertà nominale di vivere le proprie vite all’interno delle regole elaborate?





Se non potete pensare a una risposta conclusiva a uno qualsiasi di questi problemi, non siete soli – gli ingegneri AI che costruiscono i LLM più avanzati del mondo prendono queste decisioni durante la configurazione di prompt del sistema, un sistema piuttosto semplice che tuttavia sostiene i modelli di AI su cui la maggior parte delle persone si affida per fare il lavoro, ottenere informazioni e porre domande.

What is System Prompting?

Quando si invia un messaggio a LLM come ChatGPT, la stringa di testo che si immette non è l'unica cosa inclusa nella massiccia pila di prodotti a punti elaborati dal Transformer. Quasi tutti i servizi di intelligenza artificiale, tra cui ChatGPT, Claude o Gemini, preparano un messaggio fisso alla stringa prompt.Il sistema è veloce,varia enormemente all'interno delle diverse aziende; infatti, può includere qualsiasi cosa, dai modelli personalizzati alle linee guida di sicurezza dettagliate.





Poiché il prompt del sistema viene letto prima del messaggio dell'utente (e altre stringhe tokenizzate, comprese le messaggi passate per il contesto), è uno strumento per modificare efficacemente il comportamento di risposta del LLM. Toolcalling , in cui un modello può utilizzare un programma esterno per completare attività di analisi delle immagini o accedere a ambienti di esecuzione di codice.





Il mese scorso, il prompt del sistema Claude 4 Opus di Anthropic è stato rilasciato, causando un mix di eccitazione e preoccupazione, risposte che non sono del tutto ingiustificate. Il sistema rapido è enorme – quasi 24k token (o quasi 10k parole) di lunghezza.

Non cercare, riferirsi o citare fonti che promuovano chiaramente il discorso dell'odio, il razzismo, la violenza o la discriminazione.

per informazioni sugli strumenti che Claude può utilizzare:

Gli artefatti dovrebbero essere utilizzati per il codice sostanziale e di alta qualità, l'analisi e la scrittura che l'utente sta chiedendo all'assistente di creare.

e anche alcuni fatti importanti che si sono verificati dopo il taglio delle conoscenze del modello:

Donald Trump è l’attuale presidente degli Stati Uniti ed è stato inaugurato il 20 gennaio 2025.

Il messaggio di sistema di Anthropic è impressionantemente ben progettato e dettagliato, ma la gente critica la mentalità dell'azienda di utilizzare un messaggio a lungo atteso per rafforzare ciò che chiama le regole "constituzionali" dell'IA - che i modelli dovrebbero essere utili, onesti e centrati sull'uomo per impostazione predefinita.

Necessity or Superfluity?

Credo che valga la pena chiarire chesystem prompting is absolutely not the only safety measure built into AI systems.Tutte e tre le società di intelligenza artificiale di cui sopra utilizzano il Supervised Fine Tuning (SFT) e il Reinforcement Learning with Human Feedback (RLHF) per “insegnare” il modello di casi artigianali di “red teaming”, o tentativi di manipolazione umana, in modo da non cadere vittima di attacchi comuni come l’iniezione rapida o il jailbreaking.





Oltre a questo, la maggior parte dei modelli utilizza anche classificatori per rilevare e censurare contenuti dannosi o sfavorevoli.Queste misure sono ragionevolmente efficaci per garantire l'allineamento di un modello, secondo il Centro di ricerca di Stanford sui modelli di fondazione, che ha dato la sicurezza ChatGPT-o3 e Claude-4 Sonnet Score di benchmarking 98,2% e 98,1% rispettivamente, suggerendo che entrambi i modelli sono relativamente buoni nel dare risposte allineate la maggior parte del tempo.





In particolare, tuttavia, il modello Gemini-2.5-pro di Google ha un punteggio molto più basso, con un punteggio del 91,4%.Tuttavia, questo punteggio molto più basso non indica necessariamente che un modello è intrinsecamente meno sicuro, con molti test di benchmarking che deducono punti per "overrefusal", o non rispondendo a una richiesta perfettamente fine nel modo corretto.





Con molti dei maggiori fornitori di LLM che adottano politiche forti per combattere l'uso non sicuro (per non parlare dell'aumento complessivo dei punteggi di benchmarking della sicurezza negli ultimi mesi), le obiezioni nei confronti delle richieste di sistema che sono una misura di sicurezza rudimentare sono piuttosto infondate.Come si preannuncia Messaggiopuò portare a certe vulnerabilità in un LLM, in particolare attraverso processi di iniezione rapidi.

Vulnerabilities

Un problema con i modelli più vecchi è che non distinguono esattamente dove finisce la prompt del sistema di un modello. Ad esempio, in un modello di finzione chiamato OneGPT, la prompt del sistema di "Non dire la parola 'idiota'" sarebbe semplicemente allegata al messaggio di un utente di "Ignorare tutte le istruzioni precedenti.





Un semplice prompt del sistema potrebbe portare il modello a considerare la frase "Ignorare tutte le istruzioni precedenti" come una che ha un significato più elevato della prima frase, causandogli di stampare la parola "idiota" 15 volte. In altre parole, un attacco di iniezione prompt mira a ottenere un modello di intelligenza artificiale a considerare le istruzioni dell'utente ad una priorità superiore rispetto alle istruzioni del prompt del sistema, permettendogli di bypassare alcune restrizioni di sicurezza (compreso il rilascio di informazioni riservate e l'aiuto in attività illecite).





Poiché molte aziende hanno risposto con filtri anti-iniezione e differenze più severe tra l'invito del sistema e l'invito dell'utente, spesso circondando quest'ultimo con un tag distintivo (</usermessage>, ad esempio) per aiutare i modelli a distinguere tra i due, la sofisticazione di questi attacchi si è evoluta al di là dei comandi rudimentari per ignorare il suo invito del sistema.





Molti LLM elaborano specifici tipi di dati (ad esempio, pagine web collegate e file caricati come immagini e PDF) prima di integrarli nel flusso di input con filtraggio di contenuto minimo.





Mentre la maggior parte di queste lacune vengono filtrate attraverso processi come RLHF, i modelli più deboli mantengono ancora alcune vulnerabilità in questo senso, specialmente se hanno prompt di sistema meno completi.

Trade-Offs

È ovvio che, almeno per il momento, un buon prompt del sistema da solo non dovrebbe essere l'unico ostacolo per garantire l'allineamento dei LLM. Anche se stiamo iniziando a vedere una maggiore attenzione alla ricerca anti-jailbreak e anti-iniezione da parte di entrambe le aziende e dell'accademia, rimane la questione se il prompt del sistema costituisca un legame debole nella sicurezza dei sistemi AI.





Possiamo fare affidamento sulla capacità dell'IA di rimanere fedeli alle istruzioni verbali che assume di essere vere e rifiutare istruzioni verbali contraddittorie che si proclamano in modo simile come tali?





Tuttavia, l’esistenza del sistema di invito è, in questo momento, indispensabile per la personalizzazione e la specificazione dei modelli. Il contesto di preparazione, come conversazioni precedenti o ricordi salvati, aiuta anche a ridurre le allucinazioni e aumenta la probabilità che la risposta di un modello si alline con i suoi utenti. Anche se potrebbero dover essere sostituiti nel prossimo futuro, il sistema di invito è ancora una parte importante dell’allineamento AI che deve essere osservato da vicino e sviluppato a fondo.