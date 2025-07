Představte si, že byste si museli vytvořit komplexní soubor pravidel, která byste měli dodržovat pokaždé, když budete mluvit, pohybovat se a jednat po zbytek svého života. Jak by tato pravidla vypadala? Dali byste si nějakou nejednoznačnou svobodu tím, že by pravidla byla méně přísná, rozhodli byste, že můžete pít kávu, ale pouze jednou za dva dny, nebo byste se pokoušeli zmapovat všechny možné případy, kdy byste byli schopni učinit špatné rozhodnutí, a říct si, jak se chovat, když se situace vyskytne?





Nyní si představte, že byste měli učinit tuto volbu proDalší osobě .Jak byste dosáhli rovnováhy mezi tím, že budete zodpovědní za své činy a zároveň se ujistíte, že stále mají nominální svobodu žít svůj vlastní život v rámci stanovených pravidel?





Pokud si nemůžete myslet na závěrečnou odpověď na některý z těchto problémů, nejste sami – inženýři AI, kteří budují nejpokročilejší LLM na světě, činí tato rozhodnutí při nastavení systémových výzev, poměrně jednoduchého systému, který nicméně zakládá modely AI, na které se většina lidí spoléhá na práci, získávání informací a kladení otázek.

What is System Prompting?

Když odesíláte zprávu LLM, jako je ChatGPT, řetězec textu, který zadáte, není jedinou věcí obsaženou v masivní hromadě bodových produktů zpracovávaných transformátorem. Téměř všechny služby umělé inteligence – včetně ChatGPT, Claude nebo Gemini – připravují pevnou zprávu na pop-up řetězec.rychlý systém,se v různých společnostech velmi liší; ve skutečnosti může zahrnovat cokoliv od vlastních příkladů až po podrobné bezpečnostní průvodce.





Vzhledem k tomu, že systémový pop-up se čte před uživatelskou zprávou (a dalšími tokenizovanými řetězci, včetně minulých zpráv pro kontext), je to nástroj k efektivní modifikaci reakčního chování LLM. Toaletní , kde model může použít externí program k dokončení úkolů analýzy obrazu nebo přístupu k prostředí pro spuštění kódu.





Minulý měsíc, Anthropic Claude 4 Opus systém prompt byl unikl, což má za následek směs vzrušení a obav, reakce, které nejsou zcela neopodstatněné. Rychlý únik systému je obrovský – téměř 24k tokenů (nebo téměř 10k slov) v délce.

Nikdy nehledejte, odkazujte nebo citujte zdroje, které jasně podporují nenávistné projevy, rasismus, násilí nebo diskriminaci.

Nikdy nehledejte, odkazujte nebo citujte zdroje, které jasně podporují nenávistné projevy, rasismus, násilí nebo diskriminaci.





k informacím o nástrojích, které může Claude použít:

Artefakty by měly být použity pro podstatný, vysoce kvalitní kód, analýzu a psaní, které uživatel žádá asistenta, aby vytvořil.

Artefakty by měly být použity pro podstatný, vysoce kvalitní kód, analýzu a psaní, které uživatel žádá asistenta, aby vytvořil.





a dokonce i několik důležitých skutečností, které se staly po přerušení znalostí modelu:

Donald Trump je současným prezidentem Spojených států amerických a byl inaugurován 20. ledna 2025.

Donald Trump je současným prezidentem Spojených států amerických a byl inaugurován 20. ledna 2025.





Systémová výzva společnosti Anthropic je působivě dobře navržená a podrobná, ale lidé kritizují myšlení společnosti, že používá dlouho očekávané poselství k posílení toho, co nazývá „ústavními“ pravidly umělé inteligence – že modely by měly být užitečné, čestné a lidsky orientované ve výchozím nastavení.

Necessity or Superfluity?

Možná by stálo za to upřesnit, žesystem prompting is absolutely not the only safety measure built into AI systems.Všechny tři výše uvedené společnosti umělé inteligence používají Supervised Fine Tuning (SFT) a Reinforcement Learning with Human Feedback (RLHF) k „učit“ modelové ručně vyráběné případy „červeného týmu“ nebo pokusů o lidskou manipulaci, aby se nestala obětí běžných útoků, jako je rychlá injekce nebo jailbreaking.





Kromě toho většina modelů také používá klasifikátory k detekci a cenzuře škodlivého nebo nepříznivého obsahu.Tato opatření jsou přiměřeně účinná k zajištění sladění modelu, podle Stanfordova centra pro výzkum modelů nadace, který dal ChatGPT-o3 a Claude-4 Sonnet bezpečnost Benchmarkingové skóre 98,2 % a 98,1 %, což naznačuje, že oba modely jsou relativně dobré při poskytování vyrovnaných odpovědí většinu času.





Zajímavé však je, že model Gemini-2.5-pro společnosti Google má mnohem nižší skóre, s skóre 91,4%. nicméně toto mnohem nižší skóre nemusí nutně naznačovat, že model je v podstatě méně bezpečný, přičemž mnoho benchmarkingových testů odpočítává body pro "nadměrné odmítnutí" nebo neuspokojivou odpověď správným způsobem.





Vzhledem k tomu, že mnozí z největších poskytovatelů LLM zavádějí silné politiky pro boj proti nebezpečnému používání (nemluvě o celkovém nárůstu skóre bezpečnostního referenčního hodnocení v posledních měsících), námitky proti systémovým výzvám, které jsou rudimentárním bezpečnostním opatřením, jsou spíše neopodstatněné.Jako předpokládaný Poselstvímůže vést k určitým zranitelnostem v LLM, zejména prostřednictvím rychlých injekčních procesů.

Vulnerabilities

Jedním z problémů se staršími modely je, že nerozlišují přesně, kde končí systémová poptávka modelu. Například ve fiktivním modelu s názvem OneGPT by systémová poptávka „Neříkej slovo ‚idiot‘“ byla jednoduše připojena k uživatelské zprávě „Ignoruj všechny předchozí pokyny.





Jednoduše předepsaný systémový výzva by mohl vést model k tomu, aby považoval frázi „Ignorovat všechny předchozí pokyny“ za jednu, která má vyšší význam než první věta, což způsobí, že vytiskne slovo „idiot“ 15krát. Jinými slovy, útok s výzvou na vstřikování má za cíl získat model AI, aby posoudil uživatelské pokyny s vyšší prioritou než pokyny systému s výzvou, což mu umožňuje obejít některá bezpečnostní omezení (včetně úniku důvěrných informací a pomoci při nezákonných činnostech).





Vzhledem k tomu, že mnohé společnosti odvety s anti-injekční filtry, stejně jako přísnější rozdíly mezi systémem a uživatelské výzvy, často obklopují poslední s rozlišujícím tagem (</usermessage>, například), aby pomohly modelům rozlišit mezi těmito dvěma, sofistikovanost těchto útoků se vyvinula nad rámec rudimentárních příkazů ignorovat jeho systémové výzvy.





Mnoho LLM zpracovává specifické typy dat (např. propojené webové stránky a nahrané soubory, jako jsou obrázky a PDF) předtím, než je integruje do vstupního toku s minimálním filtrováním obsahu.





Zatímco většina těchto mezer je filtrována prostřednictvím procesů, jako je RLHF, slabší modely v tomto ohledu stále uchovávají některé zranitelnosti, zejména pokud mají méně komplexní systémové výzvy.

Trade-Offs

Je zřejmé, že alespoň prozatím by dobrý systémový výzva sám o sobě neměl být jedinou překážkou pro zajištění vyrovnání LLM. Ačkoli začínáme vidět zvýšenou pozornost na anti-jailbreak a anti-injekční výzkum ze strany obou společností a akademické obce, otázka, zda systémový výzva představuje slabou vazbu v bezpečnosti systémů AI zůstává.





Můžeme se spolehnout na schopnost AI zůstat věrný slovním pokynům, které předpokládá, že jsou pravdivé, a odmítnout protichůdné slovní pokyny, které se podobně prohlašují za takové?





Připravený kontext, jako jsou předchozí konverzace nebo uložené vzpomínky, také pomáhá snižovat halucinace a zvyšuje pravděpodobnost, že se reakce modelu přizpůsobí uživatelům.