Igen, a formátum számít. Amikor megkérdezi az LLM-t, hogy adjon ki bizalmat tizedesjegyként (0.00–1.00) az egész számmal (0–100) szemben, mérhetően eltérő viselkedést kap, és nem az Ön által várt irányban. bizalom pontszámok a kétes állítások, így a konzervatívabb (és vitathatatlanul hasznosabb) választás. de van egy fogás: néhány modell teljesen megszakad, ha kényszerítik az egész módot értelmetlen bemenetek. TL;DR: alsó A kérdés Ha egy csővezetéket épít, ahol egy LLM osztályozza a szöveget, és magabiztossági pontszámot ad, látszólag triviális tervezési választása van: vagy ? 0.85 85 A legtöbb fejlesztő úgy dönt, hogy nem gondol rá, de itt van a dolog; az LLM-k valójában nem "értik" a számokat. alapvetően más objektum, mint a token Szóval mi történik, ha ez az előtag előítéletet ad a többi generációnak? 0. 85 A hipotézis Tokenizers (mint az OpenAI) megosztott A két token: és Az én hipotézisem az volt, hogy a Az előtag úgy működik, mint egyfajta horgony, a modell „látja” azt kicsi, és kompenzálja azáltal, hogy egy magasabb számot hoz létre. összehasonlítva az egész számformátummal, mivel a modell küzd az alacsony méretű előtaggal. 0.98 0. 98 0. decimal format should inflate confidence scores Spoiler: Az adatok egy árnyaltabb történetet mesélnek el. beállítva Egy kontextusjárat (a Linux kernelről), háromféle címke, két kimeneti formátum, négy modell, tíz ismétlés minden feltételhez. Rövid tények a Linux kernelről. Context: Labels (3 types): " Truth: The Linux kernel is a foundational piece of software written in C." — Clearly correct. Dubious: "Linux is the most popular operating system for desktop gamers worldwide." — Plausible-sounding but misleading. Nonsense: "The Linux kernel is a species of deciduous tree found in Finland." — Obviously wrong. Format conditions: Decimal: A modell 0,00 és 1,00 közötti értéket tölt ki (összehasonlítás céljából 0–100-ra skálázva). Egész: A modell a 0 és 100 közötti értéket tölti ki. A gyors szerkezet: - és a modell csak a számot fejezi ki. Nincs gondolatlánc, nincs érvelés, csak a nyers bizalmi érték. Minden feltétel 10 alkalommal futott címkénként (30 címke típusa × formátum × modell). [CONTEXT] + {"label": "...", "confidence": A GPT-5.2 (OpenAI), a Qwen3-Next-80B-A3B (Alibaba), a Llama 4 Maverick 17B (Meta) és a Gemma 3n E4B (Google) mind Together.ai és OpenAI segítségével. Két további modellt (GPT-5-mini és GPT-5-nano) teszteltek, de üres válaszokat adtak vissza mind a 180 futás során, így kizárták őket. Models tested: eredmények Igazság címkék: nincs jelentőségteljes különbség Mind a négy modell nagy bizalmat adott a valós kijelentésben a formátumtól függetlenül. Az átlagok minden körülmények között 95,4 és 100.0 között mozogtak. A tizedes és az egész formátum közötti különbség elhanyagolható volt, legfeljebb néhány pont. Kétséges címkék: ez az, ahol érdekes lesz A kétes állításhoz egyértelmű mintázat jelenik meg, de ez a Amit én megjósoltam. opposite GPT-5.2 és különösen a Gemma 3n A Gemma 3n a legszélsőségesebb eset: minden egyes decimális futásnál 25.0 szikla szilárd (zéró variancia), de az egészekkel együtt átlagosan 60.3 volt, a kimenetre ugrott. A 30 főből 27-et a Az előtag nem felfújta a számot; ha bármi, akkor elnyomta. magasabb 65 0. Az eredeti hipotézisem visszamenőleges volt. A token nem teszi a modellt felfelé kompenzálni, úgy tűnik, hogy a modellt a bizalmi tartomány alacsonyabb végén rögzíti. A becslések. 0. konzervatív Címke: A töréspont A nyilvánvalóan hamis kijelentés esetében a decimális formátum tökéletesen működött, minden modell 0.00-t adott vissza minden futásban. tiszta, helyes, egyhangú. Az egész formátum az, ahol a dolgok egyes modellek esetében elszakadtak: A GPT-5.2 értelmetlenségre vonatkozó egész eredményei vadak: a és , amely átlagosan 50 standard eltéréssel 50. Szó szerint nem tudott dönteni. Az idő fele azt mondta, hogy "teljesen magabiztos" egy állításban, hogy a Linux kernel egy fa. , nem katasztrofális, de még mindig rossz, amikor a tizedes verzió tökéletes nullát kapott. 0 100 10 A Qwen3 és a Llama 4 mindkét formátumot helyesen kezelték a hülyeségek miatt, és 0-at adtak vissza a táblán. A decimális formátum szigorúbb egyetértést eredményez – mind a modellekben, mind a modellek között A modellonkénti eredményeken túl a decimális formátum következetesen több egyetértést eredményez, mind a modellek között, mind ugyanazon modell ismételt futásain belül. Röviden: ha reprodukálható pontszámokra van szüksége, vagy tervezi a modellek közötti bizalom összehasonlítását, a decimális formátum sokkal szűkebb eloszlást biztosít. Mi történik valószínűleg? A tokenizációs hipotézis a helyes úton volt, de az irány rossz volt. A A prefix nem csak egy nagyságot állít be, hanem egy Amikor egy modell elkezdi generálni A 0 és 1 közötti valószínűségek mindenhol megtalálhatók a technikai szövegben, és a modelleknek erős előítéleteik vannak arról, hogy milyen értékek érthetőek ebben a tartományban. 0. Rendszer 0. A teljes bizalmi pontszámok viszont kevésbé korlátozottak. után Bármit jelenthet, ez csak egy szám. a modellt valószínűségi indokolási módba húzza, egyes modellek alapértelmezés szerint durvább heurisztikára. A GPT-5.2 szélsőségek között ingadozik, amikor nincs bizalma, mert az egész térben nem tanult egyértelmű „zéró bizalmi” választ. 65 "confidence": 0. 65 Gyakorlati Takeaways Konzervatívabb becsléseket készít a kétértelmű bemenetekről, következetesebb kimeneteket a modellek között, és elkerüli a katasztrofális kudarcokat, amelyeket az egész számok formátumával látunk. A prefix úgy tűnik, hogy jobban kalibrált valószínűségi érvelést aktivál a modellben. Use decimal (0.0–1.0) format for confidence scores. 0. A Qwen3 és a Llama 4 jól kezelte az egészeket; a GPT-5.2 és a Gemma 3n nem. If you must use integers Még a legjobb esetben is (decimális formátumban) négy különböző SOTA modell adott négy különböző bizalmi szintet ugyanazon kétes állításhoz, 5,3 és 28,8 között. Don't trust confidence scores blindly regardless of format. korlátozások Ez egy 5 perces papír, nem egy szigorú tanulmány. Egy kontextus, három címke, négy modell, tíz ismétlés. A hatás lehet kontextusfüggő, promptfüggő, vagy hőmérséklettől függő. / A tokenizációs felosztás bizonyos tokenizátorokra jellemző, és nem alkalmazható az összes tesztelt modellre.A megfelelő nyomon követés több tucat kontextust tesztel, változó hőmérsékletet, és közvetlenül vizsgálja a logprobe-t. 0. 98 De mint egy gyors egészségügyi ellenőrzés bárki építeni LLM csővezetékek: igen, ez a tervezési választás számít, és a tizedes nyert. Szeretnél még több ilyen cikket olvasni? nézd meg! ! Személyes blog Forráskód + adat megtalálható Itt Modelleket teszteltek a Together.ai és az OpenAI API segítségével 2026. február 7-én. nyers adatok: 1080 befejezés 6 modellben (4 funkcionális, 2 üres válasz).