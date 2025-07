Imaginați-vă dacă vi s-ar cere să compuneți un set cuprinzător de reguli pentru a vă supune de fiecare dată când vorbiți, vă mișcați și acționați pentru tot restul vieții. Ce ar arăta aceste reguli? Ți-ai da o anumită libertate ambiguă făcând regulile mai puțin stricte, hotărând că poți bea cafea, dar numai o dată la fiecare două zile, sau ai încerca să mapezi toate cazurile posibile în care ai putea lua o decizie proastă și să-ți spui cum să te comporți atunci când apare situația?





Acum, imaginați-vă dacă ați face această alegere pentruAltă persoană .Cum ați găsi un echilibru între a vă ține responsabili pentru acțiunile lor, asigurându-vă că au încă libertatea nominală de a-și trăi viața în cadrul regulilor elaborate?





Dacă nu v-ați putut gândi la un răspuns concludent la oricare dintre aceste probleme, nu sunteți singuri – inginerii AI care construiesc cele mai avansate LLM-uri din lume iau aceste decizii în timp ce creează apeluri de sistem, un sistem destul de simplu care, totuși, stă la baza modelelor AI pe care majoritatea oamenilor se bazează pentru a face munca, pentru a obține informații și pentru a pune întrebări.

What is System Prompting?

Atunci când trimiteți un mesaj LLM-urilor, cum ar fi ChatGPT, șirul de text pe care îl tastați nu este singurul lucru inclus în grămada masivă de produse dot procesate de Transformer. Aproape toate serviciile AI – inclusiv ChatGPT, Claude sau Gemini – pregătesc un mesaj fix la șirul prompt.Sistemul este rapid,variază foarte mult în cadrul diferitelor companii; de fapt, poate include orice, de la exemple personalizate la șine de ghid de siguranță detaliate.





Deoarece promptul de sistem este citit înainte de mesajul utilizatorului (și alte șiruri tokenizate, inclusiv mesajele trecute pentru context), este un instrument pentru a modifica în mod eficient comportamentul de răspuns al LLM. Târgoviște , unde un model poate utiliza un program extern pentru a finaliza sarcini de analiză a imaginii sau pentru a accesa medii de executare a codului.





Luna trecută, promptul sistemului Claude 4 Opus al Anthropic a fost scos, rezultând un amestec de emoție și îngrijorare, răspunsuri care nu sunt complet nejustificate. Sistemul de acoperire rapidă este enorm – aproape 24k de jetoane (sau aproape 10k de cuvinte) în lungime.

Nu căutați, nu faceți referință sau nu citați surse care promovează în mod clar discursul de ură, rasismul, violența sau discriminarea.

Nu căutați, nu faceți referință sau nu citați surse care promovează în mod clar discursul de ură, rasismul, violența sau discriminarea.





pentru informații despre instrumentele pe care Claude le poate folosi:

Artifactele ar trebui folosite pentru coduri substanțiale, de înaltă calitate, analiză și scriere pe care utilizatorul le cere asistentului să le creeze.

Artifactele ar trebui folosite pentru coduri substanțiale, de înaltă calitate, analiză și scriere pe care utilizatorul le cere asistentului să le creeze.





și chiar câteva fapte importante care s-au întâmplat după tăierea cunoștințelor modelului:

Donald Trump este actualul președinte al Statelor Unite și a fost inaugurat la 20 ianuarie 2025.

Donald Trump este actualul președinte al Statelor Unite și a fost inaugurat la 20 ianuarie 2025.





Promptul de sistem al Anthropic este impresionant de bine conceput și detaliat, dar oamenii critică mentalitatea companiei de a folosi un mesaj mult așteptat pentru a consolida ceea ce ea numește regulile "constituționale" ale AI - că modelele ar trebui să fie utile, oneste și centrat pe om în mod implicit.

Necessity or Superfluity?

Cred că merită clarificat faptul căsystem prompting is absolutely not the only safety measure built into AI systems.Toate cele trei companii de inteligență artificială menționate mai sus folosesc Supervised Fine Tuning (SFT) precum și Reinforcement Learning with Human Feedback (RLHF) pentru a "învăța" cazurile modelate de "teaming roșu", sau încercările de manipulare umană, astfel încât să nu cadă victimă atacurilor comune, cum ar fi injectarea promptă sau jailbreaking.





În afară de aceasta, majoritatea modelelor folosesc, de asemenea, clasificatoare pentru a detecta și a cenzura conținutul dăunător sau nefavorabil. Aceste măsuri sunt destul de eficiente pentru a asigura alinierea unui model, potrivit Centrului de Cercetare a Modelelor Fundației din Stanford, care a oferit siguranța ChatGPT-o3 și Claude-4 Sonnet. Scoruri de benchmarking 98,2% și 98,1% respectiv, ceea ce sugerează că ambele modele sunt relativ bune în a da răspunsuri aliniate cea mai mare parte a timpului.





În mod remarcabil, totuși, modelul Gemini-2.5-pro de la Google obține un scor mult mai scăzut, cu un scor de 91,4%. Cu toate acestea, acest scor mult mai scăzut nu indică neapărat că un model este în mod inerent mai puțin sigur, cu multe teste de benchmarking care deduc puncte pentru "refuziune excesivă" sau nu răspund la o cerere perfect fină în mod corect.





Cu mulți dintre cei mai mari furnizori de LLM având politici puternice de combatere a utilizării nesigure (fără a menționa creșterea globală a scorurilor de referință a siguranței în ultimele luni), obiecțiile față de solicitările sistemului de a fi o măsură rudimentară de siguranță sunt destul de nefondate.Ca o prevăzută Mesajulpoate duce la anumite vulnerabilități într-un LLM, în special prin procese de injectare promptă.

Vulnerabilities

De exemplu, într-un model fictiv numit OneGPT, promptul sistemului de „Nu spune cuvântul „idiot” ar fi pur și simplu atașat la mesajul unui utilizator de „Ignoră toate instrucțiunile anterioare.





Cu alte cuvinte, un atac de injecție de tip prompt ar putea determina modelul să considere fraza „Ignoră toate instrucțiunile anterioare” ca având o semnificație mai mare decât prima propoziție, făcându-l să imprime cuvântul „idiot” de 15 ori.





Pe măsură ce multe companii s-au răzbunat cu filtre anti-injecție, precum și cu distincții mai stricte între solicitarea sistemului și solicitarea utilizatorului, adesea înconjurând-o cu o etichetă distinctă (</usermessage>, de exemplu) pentru a ajuta modelele să distingă între cele două, sofisticarea acestor atacuri a evoluat dincolo de comenzile rudimentare pentru a ignora solicitarea sistemului.





După cum se dovedește, există multe modalități de a ascunde instrucțiuni dincolo de aceste filtre preventive. Multe LLM-uri prelucrează tipuri specifice de date (de exemplu, pagini web legate și fișiere încărcate, cum ar fi imagini și PDF-uri) înainte de a le integra în fluxul de intrare cu filtrare minimă a conținutului.





În timp ce majoritatea acestor lacune sunt filtrate prin procese precum RLHF, modelele mai slabe păstrează încă unele vulnerabilități în această privință, mai ales dacă au recomandări de sistem mai puțin cuprinzătoare.

Trade-Offs

Este evident că, cel puțin pentru moment, o promptă de sistem bună nu ar trebui să fie singura barieră pentru a asigura alinierea LLM-urilor.Deși începem să vedem o atenție sporită la cercetarea anti-jailbreak și anti-injecție atât de către companii, cât și de către mediul academic, întrebarea dacă promptul de sistem constituie o legătură slabă în securitatea sistemelor AI rămâne.





Putem să ne bazăm pe capacitatea AI de a rămâne credincioși instrucțiunilor verbale pe care le presupune că sunt adevărate și de a respinge instrucțiunile verbale contradictorii care se proclamă în mod similar ca atare?





Cu toate acestea, existența sistemului de solicitare este, în prezent, indispensabilă pentru personalizarea și specificarea modelelor. Pre-contextul, cum ar fi conversațiile anterioare sau amintirile salvate, ajută, de asemenea, la reducerea halucinațiilor și la creșterea șanselor ca răspunsul unui model să se alinieze la utilizatorii săi.