Toplinerissa käytämme tekoälyä arvioidaksemme ehdokkaan merkitystä johtavien hakuprojektien kannalta. Erityisesti luotamme GPT-4o:hen, koska se oli tuolloin yksi terävimmistä veistä kaapissa. Oikeudenmukaisesti sanottuna se Enimmäkseen se toimii. Enimmäkseen Ongelma? Aina silloin tällöin, GPT-4o menee roistoon. Se päättää, että täysin merkityksellinen ehdokas pitäisi heittää syrjään, tai että joku täysin merkityksetön ansaitsee kultaisen lipun. Se on kuin kolikon kääntäminen, mutta fancy API. Ennustettavuus on ikkunan ulkopuolella, ja meidän linja työssä, se on mahdotonta hyväksyä. Sitten aloin miettiä: onko aika jatkaa? Ihannetapauksessa uuden mallin pitäisi olla saatavilla Microsoft Azure (olemme jo sidoksissa niiden infrastruktuuriin, plus huutaa Microsoftille ilmaisia tokeneja - silti käynnissä niillä, kiitos kaverit). Tässä on se, mikä meille on tärkeää: Jos käytämme samaa ehdokasprofiilia järjestelmän kautta kahdesti, mallin ei pitäisi sanoa "kyllä" kerran ja "ei" seuraavalla kerralla. Nopeus – Jos se ajattelee liian kauan, koko putki hidastuu. GPT-4: n ~ 1,2 sekuntia vastausta kohden on melko hyvä vertailuarvo. Kustannukset – Ihannetapauksessa halvempi kuin GPT-4o. Jos se on paljon halvempaa, vielä parempi. Äskettäin törmäsin XAI: n uuteen malli, joka lupasi nopeutta, kohtuuhintaisuutta ja älykästä päättelyä. Grok-4 Fast Reasoning asennuksen Suunnittelin testin noin yhden ” ” - tapaus, jossa GPT-4o tyypillisesti epäonnistuu. kehotus pyysi mallia päättämään, onko ehdokas koskaan pitänyt roolia, joka vastaa ”CFO / Chief Financial Officer / VP Finance / Director Finance / SVP Finance” SpaceX: ssä (kaikilla odotetuilla muutoksilla otsikossa, laajuudessa ja vanhemmuudessa). problem candidate profile Tässä on nopeus, jota käytin: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] Yksinkertainen teoriassa, mutta yllättävän tehokas tapa erottaa malleja, jotka ymmärtävät vivahteita niistä, jotka hallusinoivat tai arvaavat. Kokeilu käytiin läpi mukaan lukien : 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. Lopullinen vertailu kaikissa malleissa Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (alue), 1/10 oikein (10%), $12.69 per 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (alue), 10/10 oikein (100%), $5.47 per 1000 req xAI Grok-4 Fast Reasoning: 2.83s (avg), 2.39-4.59s (alue), 10/10 oikein (100%), $0.99 per 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (alue), 0/10 oikea (0%), $10.80 per 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (alue), 10/10 oikein (100%), $5.53 per 1000 req xAI Grok-3 Mini: 5.65s (avg), 4.61-6.99s (alue), 10/10 oikein (100%), $1.47 per 1000 req OpenAI GPT-5 Nano: 8.04s (avg), 6.46-10.44s (alue), 10/10 oikein (100%), $0.29 per 1000 req OpenAI GPT-5 Mini: 9.7s (avg), 5.46-20.84s (alue), 10/10 oikein (100%), $1.37 per 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (alue), 10/10 oikein (100%), $6.62 per 1000 req Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 oikein (100%), 2.68s avg vastaus, $5.47 per 1000 req xAI Grok-4 Fast Reasoning: 10/10 oikein (100%), 2.83s avg vastaus, $0.99 per 1000 req Azure OpenAI o3-mini: 10/10 oikein (100%), 4.23s avg vastaus, $5.53 per 1000 req xAI Grok-3 Mini: 10/10 oikein (100%), 5.65s avg vastaus, $1.47 per 1000 req OpenAI GPT-5 Nano: 10/10 oikein (100%), 8.04s avg vastaus, $0.29 per 1000 req OpenAI GPT-5 Mini: 10/10 oikein (100%), 9,7s avg vastaus, 1,37 dollaria 1000 req OpenAI GPT-5 2025-08-07: 10/10 oikein (100%), 13.98s avg vastaus, $6.62 per 1000 req Azure OpenAI GPT-4o: 1/10 oikein (10%), 1.26s avg vastaus, $ 12,69 per 1000 req OpenAI GPT-4.1: 0/10 oikea (0%), 3.58s avg vastaus, $10.80 per 1000 req Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 Nano: $0.29 per 1000 req, 10/10 oikein (100%), 8.04s avg vastaus xAI Grok-4 Fast Reasoning: $0.99 per 1000 req, 10/10 oikea (100%), 2.83s avg vastaus OpenAI GPT-5 Mini: $1.37 per 1000 req, 10/10 oikein (100%), 9,7s avg vastaus xAI Grok-3 Mini: $1.47 per 1000 req, 10/10 oikein (100%), 5.65s avg vastaus Azure OpenAI o4-mini: $5.47 per 1000 req, 10/10 oikein (100%), 2.68s avg vastaus Azure OpenAI o3-mini: $5.53 per 1000 req, 10/10 oikein (100%), 4.23s avg vastaus OpenAI GPT-5 2025-08-07: $6.62 per 1000 req, 10/10 oikea (100%), 13.98s avg vastaus OpenAI GPT-4.1: $10.80 per 1000 req, 0/10 oikea (0%), 3.58s avg vastaus Azure OpenAI GPT-4o: $12.69 per 1000 req, 1/10 oikein (10%), 1.26s avg vastaus Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 Fast Reasoning: 93.1/100 yhteensä Nopeus: 88/100 (2.83 sekuntia avg) ├── Hinta: 94/100 ($ 0,99 per 1000 req) └─ Tarkkuus: 100/100 (10/10 oikein) xAI Grok-3 Mini: 82.5/100 yhteensä Nopeus: 65/100 (5,65 sekuntia avg) ├─— Hinta: 90/100 ($ 1,47 per 1000 req) └─ Tarkkuus: 100/100 (10/10 oikein) Azure OpenAI o4-mini: 80,9/100 yhteensä Nopeus: 89/100 (268 sekuntia avg) ├─— Kustannukset: 58/100 ($ 5,47 per 1000 req) └─ Tarkkuus: 100/100 (10/10 oikein) OpenAI GPT-5 Nano: 78.8/100 yhteensä ── Nopeus: 47/100 (8.04s avg) ─ Hinta: 100/100 ($0.29 per 1000 req) ─ ─ Tarkkuus: 100/100 (10/10 oikein) Azure OpenAI o3-mini: 76.1/100 kokonaismäärä ── Nopeus: 77/100 (4.23s avg) ─ ─ Hinta: 58/100 ($5.53 per 1000 req) ─ ─ Tarkkuus: 100/100 (10/10 oikein) OpenAI GPT-5 Mini: 70,5/100 kokonaismäärä ── Nopeus: 34/100 (9.7s avg) ─ ─ Hinta: 91/100 ($1.37 per 1000 req) ─ ─ Tarkkuus: 100/100 (10/10 oikein) Azure OpenAI GPT-4o: 42.5/100 kokonaismäärä ── Nopeus: 100/100 (1.26s avg) ─ ─ Hinta: 0/100 ($12.69 per 1000 req) ─ ─ Tarkkuus: 10/100 (1/10 oikea) OpenAI GPT-5 2025-08-07: 42.2/100 kokonaismäärä ── Nopeus: 0/100 (13.98s avg) ─ Hinta: 49/100 ($6.62 per 1000 req) └─ Tarkkuus: 100/100 (10/10 oikein) OpenAI GPT-4.1: 38.1/100 kokonaismäärä ── Nopeus: 82/100 (3.58s avg) ─ ─ Hinta: 15/100 ($10.80 per 1000 req) ─ ─ Tarkkuus: 0/100 (0/10 oikea) Overall Statistics: Nopein yksittäinen vastaus: 0.75 sekuntia (Azure OpenAI GPT-4o) Hitain yksittäinen vastaus: 21.25 sekuntia (OpenAI GPT-5 2025-08-07) Tarkin malli: OpenAI GPT-5 Nano (100%) Vähiten tarkka malli: OpenAI GPT-4.1 (0%) Kallein malli: Azure OpenAI GPT-4o (12,69 dollaria 1000 rekkaa kohden) Kustannustehokkain malli: OpenAI GPT-5 Nano ($ 0,29 per 1000 req) Kaikkien testien kokonaiskustannukset: 0,452 dollaria Ja voittaja on... xAI Grok-4 Fast Reasoning (näytelmän tähti) Täsmällisyys 10/10 (100%) Nopeus: 2,83 sekuntia keskimäärin (2.39 sekuntia nopein, 4,59 sekuntia hitain) Hinta: 0,99 dollaria 1000 pyynnöstä Edullinen, tarkka ja kohtuullisen nopea. (tämä kruunu menee GPT-4o), mutta ottaen huomioon GPT-4o vastasi oikein vain , otan hieman hitaammin luotettavamman tavan. Täydellinen nopeus 1 out of 10 times Tärkeimmät takeaways GPT-4o on nopea, mutta epäluotettava tähän tehtävään. Grok-4 Fast Reasoning osuu makeaan pisteeseen: halpa, riittävän nopea ja kuollut tarkkuus. Azuren o4-mini on myös vahva (100% tarkkuus, kohtuullinen nopeus), mutta yli 5 kertaa kalliimpi kuin Grok-4. GPT-5 Nano on naurettavan halpa, mutta odotat 8+ sekuntia jokaiseen vastaukseen, mikä rikkoo työnkulkuamme. Mihin me menemme täältä Vuosi sitten GPT-4o oli yksi edistyksellisimmistä ja luotettavimmista vaihtoehdoista. Rakensimme suuria osia tuotteistamme sen ympärille. Mutta aika liikkuu nopeasti AI-maassa. Tämä pieni kokeilu Grok-4: n kanssa oli silmien avaaminen. Ei vain se antaa meille paremman vaihtoehdon ehdokkaan arvioinnille, vaan se myös saa minut haluamaan vierailla muissa sovelluksemme osissa, joissa olemme sokeasti luottaneet GPT-4o. Maisema muuttuu, ja jos et jatka testausta, saatat herätä eräänä päivänä ymmärtämään, että AI antaa sinulle luottavaisesti vääriä vastauksia ... ennätysnopeudella. Joten kyllä, GPT-4o, kiitos palvelustasi.Mutta näyttää siltä, että Grok-4 Fast Reasoning istuu pöydässä.