Topliner mēs izmantojam AI, lai novērtētu kandidātu atbilstību izpildvaras meklēšanas projektiem. Lai būtu godīgi, tas Darbs – lielākoties Lielākoties Problēma? Katru reizi, kad GPT-4o iet krāpnieciski. tas nolemj, ka perfekti atbilstošs kandidāts būtu jāizmet malā, vai ka kāds pilnīgi neattiecīgs ir pelnījis zelta biļeti. Tas ir tāpat kā monētas pagriešana, bet ar fancy API. paredzamība ir ārpus loga, un mūsu darba līnijā tas ir nepieņemams. Tad es sāku domāt: vai ir pienācis laiks doties tālāk? Ideālā gadījumā jaunajam modelim vajadzētu būt pieejamam Microsoft Azure (mēs jau esam saistīti ar viņu infrastruktūru, kā arī kliedzam Microsoft par bezmaksas žetoniem - joprojām darbojas uz tiem, paldies puišiem). Lūk, kas mums ir svarīgi: Precizitāte – augstākā prioritāte.Ja mēs izmantojam to pašu kandidāta profilu sistēmā divas reizes, modelim nevajadzētu teikt “jā” vienu reizi un “nē” nākamajā reizē. Ātrums – ja tas domā pārāk ilgi, viss cauruļvads palēninās. GPT-4o ~ 1,2 sekundes par atbildi ir diezgan labs kritērijs. Izmaksas – Ideāli lētāk nekā GPT-4o. Ja tas ir daudz lētāk, vēl labāk. Nesen es nokļuvu XAI jaunajā modelis, kas solīja ātrumu, pieejamību un gudru pamatojumu. Grok-4 Fast Reasoning iestatījums Es izstrādāju testu ap vienu " Priekšlikums lūdza modeli izlemt, vai kandidāts kādreiz bija ieņēmis lomu, kas ir līdzvērtīga “CFO / finanšu direktors / finanšu viceprezidents / finanšu direktors / SVP finanšu” SpaceX (ar visām paredzamajām izmaiņām nosaukumā, darbības jomā un vecuma). problem candidate profile Lūk, tas ir ātrums, ko es izmantoju: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] Teorētiski vienkāršs, bet pārsteidzoši efektīvs veids, kā atdalīt modeļus, kas saprot nianses, no tiem, kas halucinē vai uzmin. Eksperiments noritēja pāri , ieskaitot : 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. Galīgais salīdzinājums starp visiem modeļiem Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (apjoms), 1/10 pareizi (10%), $ 12,69 par 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (apjoms), 10/10 pareizi (100%), $5.47 par 1000 req xAI Grok-4 Fast Reasoning: 2.83s (avg), 2.39-4.59s (apjoms), 10/10 pareizi (100%), $0.99 par 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (apjoms), 0/10 pareizi (0%), $10.80 par 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (apjoms), 10/10 pareizi (100%), $5.53 par 1000 req xAI Grok-3 Mini: 5.65s (avg), 4.61-6.99s (apjoms), 10/10 pareizi (100%), $1.47 par 1000 req OpenAI GPT-5 Nano: 8.04s (avg), 6.46-10.44s (apjoms), 10/10 pareizi (100%), $0.29 par 1000 req OpenAI GPT-5 Mini: 9.7s (avg), 5.46-20.84s (apjoms), 10/10 pareizi (100%), $1.37 par 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (apjoms), 10/10 pareizi (100%), $6.62 par 1000 req Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 pareizi (100%), 2.68s avg atbilde, $ 5,47 par 1000 req xAI Grok-4 Fast Reasoning: 10/10 pareizi (100%), 2.83s avg atbilde, $ 0,99 par 1000 req Azure OpenAI o3-mini: 10/10 pareizi (100%), 4.23s avg atbilde, $ 5.53 par 1000 req xAI Grok-3 Mini: 10/10 pareizi (100%), 5.65s avg atbilde, $ 1.47 par 1000 req OpenAI GPT-5 Nano: 10/10 pareizi (100%), 8.04s avg atbilde, $ 0,29 par 1000 req OpenAI GPT-5 Mini: 10/10 pareizi (100%), 9,7 s avg atbilde, $ 1,37 par 1000 req OpenAI GPT-5 2025-08-07: 10/10 pareizi (100%), 13.98s avg atbilde, $ 6,62 par 1000 req Azure OpenAI GPT-4o: 1/10 pareiza (10%), 1.26s avg atbilde, $ 12,69 par 1000 req OpenAI GPT-4.1: 0/10 pareizi (0%), 3.58s avg atbilde, $10.80 par 1000 req Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 Nano: $0.29 par 1000 req, 10/10 pareizi (100%), 8.04s avg atbilde xAI Grok-4 Fast Reasoning: $0.99 par 1000 req, 10/10 pareizi (100%), 2.83s avg atbilde OpenAI GPT-5 Mini: $1.37 par 1000 req, 10/10 pareizi (100%), 9.7s avg atbilde xAI Grok-3 Mini: $1.47 par 1000 req, 10/10 pareizi (100%), 5.65s avg atbilde Azure OpenAI o4-mini: $ 5.47 par 1000 req, 10/10 pareizi (100%), 2.68s avg atbilde Azure OpenAI o3-mini: $ 5.53 par 1000 req, 10/10 pareizi (100%), 4.23s avg atbilde OpenAI GPT-5 2025-08-07: $6.62 par 1000 req, 10/10 pareizi (100%), 13.98s avg atbilde OpenAI GPT-4.1: $10.80 par 1000 req, 0/10 pareizi (0%), 3.58s avg atbilde Azure OpenAI GPT-4o: $ 12,69 par 1000 req, 1/10 pareizi (10%), 1.26s avg atbilde Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 Fast Reasoning: 93.1/100 kopējais ├─— Ātrums: 88/100 (2.83 s avg) ├── Cena: 94/100 ($ 0,99 par 1000 req) └─ Precizitāte: 100/100 (10/10 pareizi) xAI Grok-3 Mini: 82.5/100 kopējais ├── Ātrums: 65/100 (5,65 s avg) ├── Cena: 90/100 ($ 1,47 par 1000 req) └─ Precizitāte: 100/100 (10/10 pareizi) Azure OpenAI o4-mini: 80.9/100 kopumā ├── Ātrums: 89/100 (2.68 s avg) ├── Cena: 58/100 ($ 5,47 par 1000 req) └─ Precizitāte: 100/100 (10/10 pareizi) OpenAI GPT-5 Nano: 78.8/100 kopējais ─ Ātrums: 47/100 (8.04s avg) ─ Cena: 100/100 ($0.29 par 1000 req) ─ Precizitāte: 100/100 (10/10 pareizi) Azure OpenAI o3-mini: 76.1/100 kopējais ─ Ātrums: 77/100 (4.23s avg) ─ Izmaksas: 58/100 ($5.53 par 1000 req) ─ Precizitāte: 100/100 (10/10 pareizi) OpenAI GPT-5 Mini: 70.5/100 kopumā ── Ātrums: 34/100 (9.7s avg) ─ Cena: 91/100 ($1.37 par 1000 req) ─ Precizitāte: 100/100 (10/10 pareizi) Azure OpenAI GPT-4o: 42.5/100 kopumā ── Ātrums: 100/100 (1.26s avg) ─ Cena: 0/100 ($ 12,69 par 1000 req) ─ Precizitāte: 10/100 (1/10 pareizi) OpenAI GPT-5 2025-08-07: 42.2/100 kopumā ── Ātrums: 0/100 (13.98s avg) ─ Cena: 49/100 ($6.62 par 1000 req) ─ Precizitāte: 100/100 (10/10 pareizi) OpenAI GPT-4.1: 38.1/100 kopējais ─ Ātrums: 82/100 (3.58s avg) ─ Cena: 15/100 ($10.80 par 1000 req) ─ Precizitāte: 0/100 (0/10 pareizi) Overall Statistics: ♂️ Ātrākā individuālā atbilde: 0.75 sekundes (Azure OpenAI GPT-4o) Lēnākā individuālā atbilde: 21.25 sekundes (OpenAI GPT-5 2025-08-07) Visprecīzākais modelis: OpenAI GPT-5 Nano (100%) Vismazāk precīzs modelis: OpenAI GPT-4.1 (0%) Visdārgākais modelis: Azure OpenAI GPT-4o ($ 12,69 par 1000 req) Visizdevīgākais modelis: OpenAI GPT-5 Nano ($ 0,29 par 1000 req) Kopējās izmaksas visiem testiem: $ 0,452 Un uzvarētājs ir... xAI Grok-4 Fast Reasoning (Skaņu zvaigzne) Precizitāte 10/10 (100%) Ātrums: vidēji 2.83 s (2.39 s ātrākais, 4.59 s lēnākais) Izmaksas: $ 0,99 par 1000 pieprasījumiem Lēti, precīzi un samērā ātri. (šis kronis iet uz GPT-4o), bet ņemot vērā GPT-4o pareizi atbildēja tikai , Es ņemšu nedaudz lēnāk, lai būtu uzticamāks. Absolūtais ātrums 1 out of 10 times Atslēgvārdi takeaways GPT-4o ir ātrs, bet neuzticams šim uzdevumam. Grok-4 Fast Reasoning sasniedz saldo punktu: lēti, pietiekami ātri un miruši precīzi. Azure o4-mini ir arī spēcīgs (100% precizitāte, pienācīgs ātrums), bet vairāk nekā 5 reizes dārgāks nekā Grok-4. GPT-5 Nano ir smieklīgi lēts, bet jūs gaidīsit 8+ sekundes par katru atbildi, kas pārtrauc mūsu darba plūsmu. Kurp mēs ejam no šeit Pirms gada GPT-4o bija viena no vismodernākajām un uzticamākajām iespējām. Mēs uzbūvējām lielus mūsu produkta gabalus ap to. Bet laiks ātri virzās AI zemē. Šis neliels eksperiments ar Grok-4 bija atvērts acīm. ne tikai tas dod mums labāku iespēju kandidātu novērtēšanai, bet tas arī liek man vēlēties atgriezties citās mūsu pieteikuma daļās, kur mēs akli uzticējāmies GPT-4o. Dizains mainās, un, ja jūs nepārtraucat testēt, jūs varētu kādu dienu pamosties un saprast, ka jūsu AI pārliecinoši sniedz jums nepareizas atbildes ... ar rekordlielu ātrumu. Tātad jā, GPT-4o, paldies par jūsu pakalpojumu. bet šķiet, ka Grok-4 Fast Reasoning ieņem jūsu vietu pie galda.