Ketika Anda meminta LLM untuk menghasilkan kepercayaan sebagai desimal (0.00–1.00) versus seluruh (0–100), Anda mendapatkan perilaku yang berbeda yang dapat diukur, dan tidak ke arah yang Anda harapkan. nilai kepercayaan untuk klaim yang meragukan, menjadikannya pilihan yang lebih konservatif (dan mungkin lebih berguna).Tapi ada satu tangkapan: beberapa model benar-benar pecah ketika dipaksa ke mode keseluruhan pada input nonsense. TL;DR: lebih rendah Pertanyaan Jika Anda membangun pipa di mana LLM mengklasifikasikan teks dan menempelkan skor kepercayaan, Anda memiliki pilihan desain yang tampaknya trivial: apakah Anda meminta atau ? 0.85 85 Kebanyakan pengembang memilih satu tanpa memikirkannya. tetapi di sini adalah hal; LLM tidak benar-benar "mengerti" angka. adalah objek yang secara fundamental berbeda dari token Jadi apa yang terjadi ketika prefiks itu memprioritaskan sisanya generasi? 0. 85 Hipotesis yang Tokenizers (seperti OpenAI) dibagi dengan dua token: dan Hipotesis saya adalah bahwa prefiks bertindak sebagai semacam anchor, model "melihat" itu sebagai kecil, dan mengkompensasi dengan menghasilkan angka yang lebih tinggi setelah itu. dibandingkan dengan format integer, karena model ini bertarung melawan prefiks magnitud rendah. 0.98 0. 98 0. decimal format should inflate confidence scores Spoiler: data menceritakan cerita yang lebih nuansa. Setup Satu konteks (sekitar kernel Linux), tiga jenis label, dua format output, empat model, sepuluh pengulangan per kondisi. Berikut ini adalah beberapa fakta tentang kernel Linux. Context: Labels (3 types): " Truth: The Linux kernel is a foundational piece of software written in C." — Clearly correct. Dubious: "Linux is the most popular operating system for desktop gamers worldwide." — Plausible-sounding but misleading. Nonsense: "The Linux kernel is a species of deciduous tree found in Finland." — Obviously wrong. Format conditions: Decimal: Model mengisi nilai antara 0,00 dan 1,00 (diukur menjadi 0-100 untuk perbandingan). Integer: Model mengisi nilai antara 0 dan 100. Struktur yang cepat adalah: Tidak ada rantai pemikiran, tidak ada pertimbangan, hanya nilai kepercayaan mentah. Setiap kondisi berjalan 10 kali per label (30 per label tipe × format × model). [CONTEXT] + {"label": "...", "confidence": GPT-5.2 (OpenAI), Qwen3-Next-80B-A3B (Alibaba), Llama 4 Maverick 17B (Meta), dan Gemma 3n E4B (Google) semua melalui Together.ai dan OpenAI. Dua model tambahan (GPT-5-mini dan GPT-5-nano) diuji tetapi mengembalikan jawaban kosong di semua 180 run masing-masing, sehingga mereka dikecualikan. Models tested: Hasilnya Label: Tidak ada perbedaan yang berarti Semua empat model memberikan kepercayaan tinggi untuk pernyataan yang benar terlepas dari format. rata-rata berkisar dari 95.4 hingga 100.0 di semua kondisi. Perbedaan antara format desimal dan format integer tidak signifikan, setidaknya beberapa poin. Label yang mencurigakan: Di sinilah menjadi menarik Untuk klaim yang meragukan, pola yang jelas muncul, tetapi itu adalah dari apa yang saya harapkan. opposite GPT-5.2 dan terutama Gemma 3n ditugaskan Gemma 3n adalah kasus ekstrim: 25.0 rock-solid dalam setiap run desimal tunggal (varians nol), tetapi rata-rata 60.3 dengan integer, ia melompat ke output dalam 27 dari 30 run. prefiks tidak membengkak angka; jika ada, itu menekannya. yang tinggi 65 0. Hipotesis awal saya adalah mundur. Token tidak membuat model mengimbangi ke atas, tampaknya mengancam model ke ujung bawah rentang kepercayaan. dengan estimasi. 0. Konservatif Label: titik perpecahan Untuk pernyataan yang jelas salah, format desimal bekerja dengan sempurna, setiap model mengembalikan 0.00 di semua run. Format integral adalah di mana hal-hal jatuh untuk beberapa model: Hasil keseluruhan GPT-5.2 untuk nonsense adalah liar: itu bergantian antara dan , menghasilkan rata-rata 50 dengan penyimpangan standar 50. ia secara harfiah tidak bisa memutuskan. setengah waktu ia mengatakan "semua-sama percaya diri" dalam klaim tentang kernel Linux menjadi pohon. , tidak bencana, tetapi masih salah ketika versi desimal mendapat nol sempurna. 0 100 10 Qwen3 dan Llama 4 menangani kedua format dengan benar pada kebodohan, mengembalikan 0 di seluruh papan. Format desimal menghasilkan kesepakatan yang lebih ketat – baik di dalam maupun di seluruh model Di luar hasil per model, format desimal secara konsisten menghasilkan lebih banyak kesepakatan, baik di seluruh model dan dalam berulang kali dari model yang sama. Singkatnya: jika Anda membutuhkan skor yang dapat diulang atau berencana untuk membandingkan kepercayaan di berbagai model, format desimal memberi Anda distribusi yang jauh lebih ketat untuk bekerja dengan. Apa yang mungkin terjadi? Hipotesis tokenisasi berada di jalur yang benar tetapi arahnya salah. yang Prefix tidak hanya mengatur ukuran, tetapi juga mengatur Ketika sebuah model mulai menghasilkan setelah Probabilitas antara 0 dan 1 ada di mana-mana dalam teks teknis, dan model memiliki prioritas yang kuat tentang nilai-nilai apa yang masuk akal dalam kisaran itu. 0. Pemerintahan 0. Nilai kepercayaan keseluruhan, di sisi lain, kurang terbatas. Setelah bisa berarti apa pun, itu hanya angka. Anchor menarik model ke mode probabilitas-reasoning, beberapa model default ke heuristik yang lebih kasar. GPT-5.2 berosilasi antara ekstrem ketika tidak memiliki keyakinan, karena dalam ruang integer tidak telah mempelajari respons "zero keyakinan" yang jelas. 65 "confidence": 0. 65 Praktisnya Takeaways Ini menghasilkan perkiraan yang lebih konservatif untuk input yang ambigu, output yang lebih konsisten di seluruh model, dan menghindari kegagalan yang menghancurkan yang terlihat dengan format integer pada input nonsense. Prefix tampaknya mengaktifkan pertimbangan probabilitas yang lebih baik dikalibrasi dalam model. Use decimal (0.0–1.0) format for confidence scores. 0. Qwen3 dan Llama 4 menangani integer baik; GPT-5.2 dan Gemma 3n tidak. If you must use integers Bahkan dalam kasus terbaik (format desimal), empat model SOTA yang berbeda memberikan empat tingkat kepercayaan yang berbeda untuk klaim yang sama yang mencurigakan, berkisar dari 5,3 hingga 28,8. Don't trust confidence scores blindly regardless of format. pembatasan Ini adalah kertas 5 menit, bukan studi yang ketat. Satu konteks, tiga label, empat model, sepuluh pengulangan. Efek dapat tergantung pada konteks, tergantung pada prompt, atau tergantung pada suhu. / Pembagian tokenisasi spesifik untuk tokenizer tertentu dan mungkin tidak berlaku untuk semua model yang diuji. tindak lanjut yang tepat akan menguji puluhan konteks, bervariasi suhu, dan memeriksa logprobs secara langsung. 0. 98 Tetapi sebagai pemeriksaan cepat untuk siapa pun yang membangun pipa LLM: ya, pilihan desain ini penting, dan kemenangan desimal. Ingin membaca lebih banyak artikel seperti ini?Selengkapnya ! Blog pribadi Kode sumber + data dapat ditemukan di sini Model yang diuji melalui Together.ai dan OpenAI API pada 7 Februari 2026. data mentah: 1.080 penyelesaian di 6 model (4 fungsional, 2 mengembalikan jawaban kosong).