Hos Topliner bruger vi AI til at vurdere kandidatrelevans for eksekutivsøgningsprojekter.Specifikt er vi afhængige af GPT-4o, fordi det på det tidspunkt var blandt de skarpeste knive i skuffen. For at være retfærdig, er det Det gør. mest af alt. For det meste Problemet? Fra tid til anden, GPT-4o går rogue. Det beslutter, at en perfekt relevant kandidat skal kastes til side, eller at nogen helt irrelevant fortjener en guldbillet. Det er som at vende en mønt, men med en fancy API. Forudsigelighed er ud af vinduet, og i vores linje af arbejde, det er uacceptabelt. Så jeg begyndte at tænke: Er det på tide at gå videre? Ideelt set skal den nye model være tilgængelig på Microsoft Azure (vi er allerede bundet i deres infrastruktur, plus råbte til Microsoft for de gratis tokens - stadig kører på dem, tak fyre). Her er hvad der betyder noget for os: Hvis vi kører den samme kandidatprofil gennem systemet to gange, bør modellen ikke sige "ja" én gang og "nej" næste gang. Hastighed – Hvis det tænker for længe, sænker hele rørledningen sig. GPT-4o’s ~1,2 sekunder pr. respons er et ret godt benchmark. Pris – Ideelt set billigere end GPT-4o. Hvis det er meget billigere, endnu bedre. For nylig stødte jeg på XAI's nye model, som lovede hastighed, overkommelighed og smart ræsonnement. Grok-4 Fast Reasoning Den oprettelse Jeg har designet en test omkring en " Prøven bad modellen om at afgøre, om en kandidat nogensinde havde haft en rolle svarende til “CFO / Chief Financial Officer / VP Finance / Director Finance / SVP Finance” hos SpaceX (med alle de forventede variationer i titel, omfang og senioritet). problem candidate profile Her er den prompt, jeg har brugt: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] Enkel i teorien, men en overraskende effektiv måde at adskille modeller, der forstår nuance fra dem, der hallucinerer eller gætter. Jeg gennemførte eksperimentet og herunder: 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. Sammenligning på tværs af alle modeller Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (område), 1/10 korrekt (10%), $12.69 pr. 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (område), 10/10 korrekt (100%), $5.47 pr. 1000 req xAI Grok-4 Fast Reasoning: 2.83s (avg), 2.39-4.59s (område), 10/10 korrekt (100%), $0.99 pr. 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (område), 0/10 korrekt (0%), $10.80 pr. 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (område), 10/10 korrekt (100%), $5.53 pr. 1000 req xAI Grok-3 Mini: 5.65s (avg), 4.61-6.99s (område), 10/10 korrekt (100%), $1.47 pr. 1000 req OpenAI GPT-5 Nano: 8.04s (avg), 6.46-10.44s (område), 10/10 korrekt (100%), $0.29 pr. 1000 req OpenAI GPT-5 Mini: 9.7s (avg), 5.46-20.84s (område), 10/10 korrekt (100%), $1.37 pr. 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (område), 10/10 korrekt (100%), $6.62 pr. 1000 req Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 korrekt (100%), 2.68s avg respons, $ 5,47 pr. 1000 req xAI Grok-4 Fast Reasoning: 10/10 korrekt (100%), 2.83s avg svar, $ 0,99 pr. 1000 req Azure OpenAI o3-mini: 10/10 korrekt (100%), 4.23s avg respons, $5.53 pr. 1000 req xAI Grok-3 Mini: 10/10 korrekt (100%), 5.65s avg svar, $1.47 pr. 1000 req OpenAI GPT-5 Nano: 10/10 korrekt (100%), 8.04s avg respons, $ 0,29 pr. 1000 req OpenAI GPT-5 Mini: 10/10 korrekt (100%), 9,7 s avg respons, $ 1,37 pr. 1000 req OpenAI GPT-5 2025-08-07: 10/10 korrekt (100%), 13,98s avg svar, $ 6,62 pr. 1000 req Azure OpenAI GPT-4o: 1/10 korrekt (10%), 1.26s avg respons, $ 12,69 pr. 1000 req OpenAI GPT-4.1: 0/10 korrekt (0%), 3.58s avg svar, $10.80 pr. 1000 req Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 Nano: $0.29 pr. 1000 req, 10/10 korrekt (100%), 8.04s avg svar xAI Grok-4 Fast Reasoning: $0.99 pr. 1000 req, 10/10 korrekt (100%), 2.83s avg svar OpenAI GPT-5 Mini: $1.37 pr. 1000 req, 10/10 korrekt (100%), 9,7 s avg svar xAI Grok-3 Mini: $1.47 pr. 1000 req, 10/10 korrekt (100%), 5.65s avg svar Azure OpenAI o4-mini: $5.47 pr. 1000 req, 10/10 korrekt (100%), 2.68s avg svar Azure OpenAI o3-mini: $5.53 pr. 1000 req, 10/10 korrekt (100%), 4.23s avg svar OpenAI GPT-5 2025-08-07: $6.62 pr. 1000 req, 10/10 korrekt (100%), 13,98s avg svar OpenAI GPT-4.1: $10.80 pr. 1000 req, 0/10 korrekt (0%), 3.58s avg svar Azure OpenAI GPT-4o: $ 12,69 pr. 1000 req, 1/10 korrekt (10%), 1.26s avg svar Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 Fast Reasoning: 93.1/100 samlet ├── Hastighed: 88/100 (2.83 s avg) ├── Pris: 94/100 ($ 0,99 pr. 1000 req) └─ Nøjagtighed: 100/100 (10/10 korrekt) xAI Grok-3 Mini: 82.5/100 samlet ├── Hastighed: 65/100 (5.65s avg) ├── Omkostninger: 90/100 ($ 1,47 pr. 1000 req) └─ Nøjagtighed: 100/100 (10/10 korrekt) Azure OpenAI o4-mini: 80.9/100 samlet ├── Hastighed: 89/100 (2.68 sekunder avg) ├── Pris: 58/100 ($ 5,47 pr. 1000 req) └─ Nøjagtighed: 100/100 (10/10 korrekt) OpenAI GPT-5 Nano: 78.8/100 overordnet ── Hastighed: 47/100 (8.04s avg) ─ Pris: 100/100 ($0.29 pr. 1000 req) ─ Nøjagtighed: 100/100 (10/10 korrekt) Azure OpenAI o3-mini: 76.1/100 overordnet ── Hastighed: 77/100 (4.23s avg) ─ Pris: 58/100 ($5.53 pr. 1000 req) ─ Nøjagtighed: 100/100 (10/10 korrekt) OpenAI GPT-5 Mini: 70.5/100 overordnet ── Hastighed: 34/100 (9.7s avg) ─ Pris: 91/100 ($1.37 pr. 1000 req) ─ Nøjagtighed: 100/100 (10/10 korrekt) Azure OpenAI GPT-4o: 42.5/100 samlet ── Hastighed: 100/100 (1.26s avg) ─ Pris: 0/100 ($12.69 pr. 1000 req) ─ Nøjagtighed: 10/100 (1/10 korrekt) OpenAI GPT-5 2025-08-07: 42.2/100 samlet ── Hastighed: 0/100 (13.98s avg) ─ Omkostninger: 49/100 ($6.62 pr. 1000 req) ─ Nøjagtighed: 100/100 (10/10 korrekt) OpenAI GPT-4.1: 38.1/100 overordnet ─ Hastighed: 82/100 (3.58s avg) ─ Omkostning: 15/100 ($10.80 pr. 1000 req) ─ Nøjagtighed: 0/100 (0/10 korrekt) Overall Statistics: ♂️ Hurtigste individuelt svar: 0.75 sekunder (Azure OpenAI GPT-4o) Langsomste individuelle respons: 21.25 sekunder (OpenAI GPT-5 2025-08-07) Den mest nøjagtige model: OpenAI GPT-5 Nano (100%) 🔸 Mindst nøjagtig model: OpenAI GPT-4.1 (0%) Den dyreste model: Azure OpenAI GPT-4o ($ 12,69 pr. 1000 req) Den mest omkostningseffektive model: OpenAI GPT-5 Nano ($ 0,29 pr. 1000 req) Samlet pris for alle tests: $ 0,452 Og vinderen er... xAI Grok-4 Fast Reasoning (The Star of the Show) er blevet lanceret. Nøjagtighed: 10/10 (100%) Hastighed: 2.83 s gennemsnitligt (2.39 s hurtigste, 4.59 s langsomste) Omkostninger: $ 0,99 pr. 1000 anmodninger Billigt, præcist og rimeligt hurtigt. (den krone går til GPT-4o), men i betragtning af GPT-4o svaret korrekt kun Jeg vil tage lidt langsommere for en mere pålidelig måde. Absolut hurtigst 1 out of 10 times Vigtigste takeaways GPT-4o er hurtig, men upålidelig til denne opgave. Grok-4 Fast Reasoning rammer det søde sted: billigt, hurtigt nok og dødt på præcis. Azures o4-mini er også stærk (100% nøjagtighed, anstændig hastighed), men over 5 gange dyrere end Grok-4. GPT-5 Nano er latterligt billigt, men du vil vente 8+ sekunder for hvert svar, hvilket bryder vores arbejdsproces. Hvor vi kommer fra herfra For et år siden var GPT-4o en af de mest avancerede og pålidelige muligheder. Vi byggede store stykker af vores produkt omkring det. Men tiden bevæger sig hurtigt i AI-land. Ikke alene giver det os en bedre mulighed for kandidatvurdering, men det får mig også til at ønske at genbesøge andre dele af vores ansøgning, hvor vi blindt stolede på GPT-4o. Landskabet skifter, og hvis du ikke fortsætter med at teste, kan du en dag vågne op og indse, at din AI med tillid giver dig de forkerte svar ... med rekordhastighed. Så ja, GPT-4o, tak for din service. men det ser ud som Grok-4 Fast Reasoning tager din plads ved bordet.