Bei Topliner verwenden wir KI, um die Relevanz von Kandidaten für executive-search-Projekte zu beurteilen.Speziell verlassen wir uns auf GPT-4o, weil es zu der Zeit zu den schärfsten Messer im Schrank gehörte. Um fair zu sein, ist es Arbeiten – meistens meistens Das Problem? Von Zeit zu Zeit geht GPT-4o verrückt. Es entscheidet, dass ein perfekt relevanter Kandidat beiseite geworfen werden sollte, oder dass jemand, der völlig irrelevant ist, ein goldenes Ticket verdient. Also begann ich mich zu fragen: Ist es an der Zeit, weiterzumachen? Idealerweise sollte das neue Modell auf Microsoft Azure verfügbar sein (wir sind bereits an ihre Infrastruktur gebunden, plus schreiend zu Microsoft für die kostenlosen Token - immer noch auf denen laufen, danke Jungs). Hier ist, was uns wichtig ist: Genauigkeit – oberste Priorität.Wenn wir das gleiche Kandidatenprofil zweimal durch das System laufen, sollte das Modell nicht einmal „Ja“ und das nächste Mal „Nein“ sagen.Vorhersehbarkeit und Korrektheit sind alles. Geschwindigkeit – Wenn es zu lange denkt, verlangsamt sich die gesamte Pipeline. GPT-4o ~1,2 Sekunden pro Antwort ist ein ziemlich guter Benchmark. Kosten – Idealerweise billiger als GPT-4o. Wenn es viel billiger ist, noch besser. In letzter Zeit habe ich auf das neue XAI-System gestürzt Modell, das Geschwindigkeit, Erschwinglichkeit und intelligentes Denken versprach. Grok-4 Fast Reasoning Der Setup Ich entwarf einen Test um einen " Der Anruf bat das Modell, zu entscheiden, ob ein Kandidat jemals eine Rolle innehatte, die der Rolle des „CFO / Chief Financial Officer / VP Finance / Director Finance / SVP Finance“ bei SpaceX entspricht (mit allen erwarteten Variationen in Titel, Umfang und Seniorität). problem candidate profile Hier ist die Prompt, die ich benutzt habe: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] Einfach in der Theorie, aber eine überraschend effektive Möglichkeit, Modelle zu trennen, die Nuancen verstehen, von denen, die halluzinieren oder erraten. Ich habe das Experiment über und einschließlich: 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. Abschließender Vergleich aller Modelle Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (Range), 1/10 korrekt (10%), $12.69 pro 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (Range), 10/10 korrekt (100%), $5.47 pro 1000 req xAI Grok-4 Fast Reasoning: 2.83s (avg), 2.39-4.59s (Bereich), 10/10 korrekt (100%), $0.99 pro 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (Bereich), 0/10 korrekt (0%), $10.80 pro 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (Range), 10/10 korrekt (100%), $5.53 pro 1000 req xAI Grok-3 Mini: 5.65s (avg), 4.61-6.99s (Range), 10/10 korrekt (100%), $1.47 pro 1000 req OpenAI GPT-5 Nano: 8.04s (avg), 6.46-10.44s (Bereich), 10/10 korrekt (100%), $ 0,29 pro 1000 req OpenAI GPT-5 Mini: 9.7s (avg), 5.46-20.84s (Range), 10/10 korrekt (100%), $1.37 pro 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (Bereich), 10/10 korrekt (100%), $6.62 pro 1000 req Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 korrekt (100%), 2.68s avg Antwort, $ 5,47 pro 1000 req xAI Grok-4 Fast Reasoning: 10/10 korrekt (100%), 2.83s avg Antwort, $ 0,99 pro 1000 req Azure OpenAI o3-mini: 10/10 korrekt (100%), 4.23s avg Antwort, $5.53 pro 1000 req xAI Grok-3 Mini: 10/10 korrekt (100%), 5.65s avg Antwort, $1.47 pro 1000 req OpenAI GPT-5 Nano: 10/10 korrekt (100%), 8.04s avg Antwort, $ 0,29 pro 1000 req OpenAI GPT-5 Mini: 10/10 korrekt (100%), 9,7 s avg Antwort, $ 1,37 pro 1000 req OpenAI GPT-5 2025-08-07: 10/10 korrekt (100%), 13,98s avg Antwort, $ 6,62 pro 1000 req Azure OpenAI GPT-4o: 1/10 korrekt (10%), 1.26s avg Antwort, $ 12,69 pro 1000 req OpenAI GPT-4.1: 0/10 korrekt (0%), 3.58s avg Antwort, $10.80 pro 1000 req Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 Nano: 0,29 $ pro 1000 req, 10/10 korrekt (100%), 8.04s avg Antwort xAI Grok-4 Fast Reasoning: $0.99 pro 1000 req, 10/10 korrekt (100%), 2.83s avg Antwort OpenAI GPT-5 Mini: 1,37 $ pro 1000 req, 10/10 korrekt (100%), 9,7 s avg Antwort xAI Grok-3 Mini: $1.47 pro 1000 req, 10/10 korrekt (100%), 5.65s avg Antwort Azure OpenAI o4-mini: $5.47 pro 1000 req, 10/10 korrekt (100%), 2.68s avg Antwort Azure OpenAI o3-mini: $5.53 pro 1000 req, 10/10 korrekt (100%), 4.23s avg Antwort OpenAI GPT-5 2025-08-07: $6.62 pro 1000 req, 10/10 korrekt (100%), 13.98s avg Antwort OpenAI GPT-4.1: $10.80 pro 1000 req, 0/10 korrekt (0%), 3.58s avg Antwort Azure OpenAI GPT-4o: $12.69 pro 1000 req, 1/10 korrekt (10%), 1.26s avg Antwort Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 Fast Reasoning: 93.1/100 insgesamt ├── Geschwindigkeit: 88/100 (2.83 Sekunden avg) ├── Kosten: 94/100 ($ 0,99 pro 1000 Req) └─ Genauigkeit: 100/100 (10/10 korrekt) xAI Grok-3 Mini: 82.5/100 insgesamt ├── Geschwindigkeit: 65/100 (5.65s avg) ├── Kosten: 90/100 ($ 1,47 pro 1000 Req) └─ Genauigkeit: 100/100 (10/10 korrekt) Azure OpenAI o4-mini: 80,9/100 insgesamt ├── Geschwindigkeit: 89/100 (2.68 Sekunden avg) ├── Kosten: 58/100 ($ 5,47 pro 1000 Req) └─ Genauigkeit: 100/100 (10/10 korrekt) OpenAI GPT-5 Nano: 78.8/100 insgesamt ── Geschwindigkeit: 47/100 (8.04s avg) ─ Kosten: 100/100 ($0.29 pro 1000 req) ─ Genauigkeit: 100/100 (10/10 korrekt) Azure OpenAI o3-mini: 76.1/100 insgesamt ── Geschwindigkeit: 77/100 (4.23s avg) ─ Kosten: 58/100 ($5.53 pro 1000 req) ─ Genauigkeit: 100/100 (10/10 korrekt) OpenAI GPT-5 Mini: 70.5/100 insgesamt ── Geschwindigkeit: 34/100 (9.7s avg) ─ ─ Kosten: 91/100 ($1.37 pro 1000 req) ─ ─ Genauigkeit: 100/100 (10/10 korrekt) Azure OpenAI GPT-4o: 42.5/100 insgesamt ── Geschwindigkeit: 100/100 (1.26s avg) ─ ─ Kosten: 0/100 ($12.69 pro 1000 req) ─ ─ Genauigkeit: 10/100 (1/10 korrekt) OpenAI GPT-5 2025-08-07: 42.2/100 insgesamt ── Geschwindigkeit: 0/100 (13.98s avg) ─ Kosten: 49/100 ($6.62 pro 1000 req) ─ Genauigkeit: 100/100 (10/10 korrekt) OpenAI GPT-4.1: 38.1/100 allgemein ── Geschwindigkeit: 82/100 (3.58s avg) ─ Kosten: 15/100 ($10.80 pro 1000 req) ─ Genauigkeit: 0/100 (0/10 korrekt) ☀️ Overall Statistics: ♂️ Schnellste individuelle Antwort: 0,75 Sekunden (Azure OpenAI GPT-4o) Langsamste individuelle Reaktion: 21.25 Sekunden (OpenAI GPT-5 2025-08-07) Das genaueste Modell: OpenAI GPT-5 Nano (100%) 🔸 Mindestens präzises Modell: OpenAI GPT-4.1 (0%) Das teuerste Modell: Azure OpenAI GPT-4o ($ 12,69 pro 1000 Req) Das kostengünstigste Modell: OpenAI GPT-5 Nano ($ 0,29 pro 1000 Req) Gesamtkosten für alle Tests: $ 0,452 Und der Gewinner ist... xAI Grok-4 Fast Reasoning (Der Star der Show) Genauigkeit: 10/10 (100%) Geschwindigkeit: 2.83 Sekunden durchschnittlich (2.39 Sekunden am schnellsten, 4.59 Sekunden am langsamsten) Kosten: 0,99 € pro 1000 Anfragen Billig, präzise und vernünftig schnell. (die Krone geht auf GPT-4o), aber unter Berücksichtigung GPT-4o nur richtig beantwortet , Ich nehme etwas langsamer für eine zuverlässigere Art und Weise. Absolute Schnelligkeit 1 out of 10 times Schlüssel Takeaways GPT-4o ist schnell, aber unzuverlässig für diese Aufgabe. Grok-4 Fast Reasoning trifft auf den süßen Punkt: billig, schnell genug und tot auf präzise. Azures o4-mini ist auch stark (100% Genauigkeit, angemessene Geschwindigkeit), aber über 5x teurer als Grok-4. GPT-5 Nano ist lächerlich billig, aber Sie werden für jede Antwort 8+ Sekunden warten, was unseren Workflow unterbricht. Wohin wir von hier aus gehen Vor einem Jahr war GPT-4o eine der fortschrittlichsten und zuverlässigsten Optionen.Wir bauten große Stücke unseres Produkts um es herum. Aber die Zeit bewegt sich schnell im AI-Land. Nicht nur gibt es uns eine bessere Option für die Bewertung von Kandidaten, sondern es lässt mich auch andere Teile unserer Anwendung besuchen, wo wir blind GPT-4o vertraut haben. Die Landschaft ändert sich, und wenn Sie nicht weiter testen, könnten Sie eines Tages aufwachen und feststellen, dass Ihre KI Ihnen zuversichtlich die falschen Antworten gibt ... mit Rekordgeschwindigkeit. Also ja, GPT-4o, danke für deinen Service. aber es sieht so aus, als ob Grok-4 Fast Reasoning deinen Platz am Tisch einnimmt.