Sa Topliner, ginagamit namin ang AI upang i-evaluate ang relevansiya ng mga kandidato para sa mga proyekto ng paghahanap ng executive. Specifically, gumagamit namin ang GPT-4o, dahil, okay... sa oras na ito ay isa sa mga pinakasakit na mga knives sa drawer. At para maging fair, ito ay Magkakaroon ng. sa karamihan. sa karamihan Ang problema? Sa lahat ng ngayon at pagkatapos, ang GPT-4o ay bumaba. Ito ay nagsisimula na ang isang perfectly relevant na kandidato ay dapat i-shut down, o na ang isang taong ganap na irrelevant na kailangan ng isang golden ticket. Ito ay tulad ng pag-flipping ng isang coin, ngunit sa isang fancy API. Ang predictability ay out of the window, at sa aming line ng trabaho, ito ay hindi dapat ayusin. So, nagsimula ako sa pananampalataya: ba ang oras na magsimula? Ideally, ang bagong modelo ay dapat na magagamit sa Microsoft Azure (na kami ay na-linked sa kanilang infrastructure, plus shoutout sa Microsoft para sa mga libreng tokens - patuloy na gumagana sa mga ito, salamat guys). Ito ang importante para sa amin: Kung nag-execute ang parehong profile ng kandidato sa pamamagitan ng sistema dalawang beses, ang modelo ay hindi dapat sabihin "ya" isang beses at "hindi" ang susunod na beses. Speed – Kung nag-iisip na lang, ang buong pipeline ay mabawasan. ~1.2 segundo ng GPT-4o per response ay isang mahusay na benchmark. Ang gastos - Ideally mas mababang kaysa sa GPT-4o. Kung ito ay mas mababang, kahit na mas mahusay. Nagsimula ako sa isang bagong XAI. ang modelo, na kung saan ay naglalakbay ng speed, affordability, at smart reasoning. Naturally, I put it to the test. Grok-4 Fast Reasoning ang setup Nagsimula ako ng isang test sa paligid ng isang " " - isang kaso kung saan ang GPT-4o ay karaniwang nangangahulugan. Ang prompt ay nangangailangan ng modelo upang mag-decide kung ang isang kandidato ay nangangailangan ng isang papel na katumbas sa "CFO / Chief Financial Officer / VP Finance / Director Finance / SVP Finance" sa SpaceX (na may lahat ng na-expect variations sa title, scope, at seniority). problem candidate profile Narito ang prompt na ginagamit ko: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] Simpleng sa teorya, ngunit isang mahirap na epektibo na paraan upang i-sara ang mga modelo na malaman ng nuansya mula sa mga na halucinate o pananampalataya. Nagsimula ako ng eksperimento sa dahil sa: 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. Final comparison sa lahat ng mga modelo ang Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (range), 1/10 correct (10%), $12.69 bawat 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (range), 10/10 correct (100%), $5.47 sa bawat 1000 req xAI Grok-4 Fast Reasoning: 2.83s (avg), 2.39-4.59s (range), 10/10 correct (100%), $0.99 sa bawat 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (range), 0/10 correct (0%), $10.80 sa bawat 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (range), 10/10 correct (100%), $5.53 bawat 1000 req xAI Grok-3 Mini: 5.65s (avg), 4.61-6.99s (range), 10/10 correct (100%), $1.47 sa bawat 1000 req OpenAI GPT-5 Nano: 8.04s (avg), 6.46-10.44s (range), 10/10 correct (100%), $0.29 sa bawat 1000 req OpenAI GPT-5 Mini: 9.7s (avg), 5.46-20.84s (range), 10/10 correct (100%), $1.37 sa bawat 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (range), 10/10 correct (100%), $6.62 per 1000 req ang Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 correct (100%), 2.68s avg response, $5.47 sa bawat 1000 req xAI Grok-4 Fast Reasoning: 10/10 correct (100%), 2.83s avg response, $0.99 bawat 1000 req Azure OpenAI o3-mini: 10/10 correct (100%), 4.23s avg response, $5.53 sa bawat 1000 req xAI Grok-3 Mini: 10/10 correct (100%), 5.65s avg response, $1.47 sa bawat 1000 req OpenAI GPT-5 Nano: 10/10 correct (100%), 8.04s avg response, $0.29 sa bawat 1000 req OpenAI GPT-5 Mini: 10/10 correct (100%), 9.7s avg response, $1.37 sa bawat 1000 req OpenAI GPT-5 2025-08-07: 10/10 correct (100%), 13.98s avg response, $6.62 sa bawat 1000 req Azure OpenAI GPT-4o: 1/10 correct (10%), 1.26s avg response, $12.69 bawat 1000 req OpenAI GPT-4.1: 0/10 correct (0%), 3.58s avg response, $10.80 sa bawat 1000 req ang mga Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 Nano: $0.29 sa bawat 1000 req, 10/10 correct (100%), 8.04s avg response xAI Grok-4 Fast Reasoning: $0.99 sa bawat 1000 req, 10/10 correct (100%), 2.83s avg response OpenAI GPT-5 Mini: $1.37 sa bawat 1000 req, 10/10 correct (100%), 9.7s avg response xAI Grok-3 Mini: $1.47 sa bawat 1000 req, 10/10 correct (100%), 5.65s avg reply Azure OpenAI o4-mini: $5.47 sa bawat 1000 req, 10/10 correct (100%), 2.68s avg response Azure OpenAI o3-mini: $5.53 sa bawat 1000 req, 10/10 correct (100%), 4.23s avg response OpenAI GPT-5 2025-08-07: $6.62 per 1000 req, 10/10 correct (100%), 13.98s avg response OpenAI GPT-4.1: $10.80 sa bawat 1000 req, 0/10 correct (0%), 3.58s avg response Azure OpenAI GPT-4o: $12.69 sa bawat 1000 req, 1/10 correct (10%), 1.26s avg response ang Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 Fast Reasoning: 93.1/100 sa kabuuan ├── Pagkakaiba: 88/100 (2.83s avg) ├── Ang presyo: 94/100 ($0.99 sa bawat 1000 req) └── Pagkakaiba: 100/100 (10/10 correct) xAI Grok-3 Mini: 82.5/100 sa kabuuan ├── Speed: 65/100 (5.65s avg) ├── Ang gastos: 90/100 ($1.47 sa bawat 1000 req) └── Pagkakaiba: 100/100 (10/10 correct) Azure OpenAI o4-mini: 80.9/100 sa kabuuan ├── Pagkakaiba: 89/100 (2.68s avg) ├── Ang presyo: 58/100 ($ 5.47 sa bawat 1000 req) └── Pagkakaiba: 100/100 (10/10 correct) OpenAI GPT-5 Nano: 78.8/100 overall ── Speed: 47/100 (8.04s avg) ─ Cost: 100/100 ($0.29 per 1000 req) ─ Accuracy: 100/100 (10/10 correct) Azure OpenAI o3-mini: 76.1/100 sa pangkalahatan ── Speed: 77/100 (4.23s avg) ─ Cost: 58/100 ($5.53 per 1000 req) ─ Accuracy: 100/100 (10/10 correct) OpenAI GPT-5 Mini: 70.5/100 overall ── Speed: 34/100 (9.7s avg) ─ ─ Cost: 91/100 ($1.37 per 1000 req) ─ ─ Accuracy: 100/100 (10/10 correct) Azure OpenAI GPT-4o: 42.5/100 overall ── Speed: 100/100 (1.26s avg) ─ ─ Cost: 0/100 ($12.69 per 1000 req) ─ ─ Accuracy: 10/100 (1/10 correct) OpenAI GPT-5 2025-08-07: 42.2/100 overall ── Speed: 0/100 (13.98s avg) ─ Cost: 49/100 ($6.62 sa bawat 1000 req) ─ Accuracy: 100/100 (10/10 correct) OpenAI GPT-4.1: 38.1/100 sa pangkalahatan ── Speed: 82/100 (3.58s avg) ─ Cost: 15/100 ($10.80 sa bawat 1000 req) ─ Precision: 0/100 (0/10 correct) ang Overall Statistics: ♂️ Ang pinakamataas na reaksyon ng isang tao: 0.75 segundo (Azure OpenAI GPT-4o) Ang pinakamataas na reaksyon ng isang tao: 21.25 segundo (OpenAI GPT-5 2025-08-07) Ang pinakamataas na modelo: OpenAI GPT-5 Nano (100%) 🔸 Ang pinakamataas na modelo: OpenAI GPT-4.1 (0%) 💰 Ang pinakamahalagang modelo: Azure OpenAI GPT-4o ($ 12,69 sa bawat 1000 req) 💎 Ang pinakamahalagang modelo: OpenAI GPT-5 Nano ($ 0.29 bawat 1000 req) Total na gastos para sa lahat ng mga test: $ 0,452 At ang winner ay... ang napili ng mga taga-hanga: Grok-4 Fast Reasoning (The Star of the Show) Mga pahinang tumuturo: 10/10 (100%) Speed: 2.83s average (2.39s ang pinakamataas, 4.59s ang pinakamataas) COST: $0.99 sa bawat 1000 mga pangangailangan Malapit na, malapit na, malapit na, malapit na, malapit na, malapit na. (ang korona ay pumunta sa GPT-4o), ngunit tinatanggap ng GPT-4o ang correct answer lamang , I'll take a little slower para sa isang mas reliable paraan. Magkakaroon ng absolute 1 out of 10 times Mga Key Takeaways Ang GPT-4o ay mabilis ngunit hindi matatagpuan para sa trabaho na ito. Magandang sa sprinting, malaki sa pag-iisa sa kanyang track. Grok-4 Fast Reasoning hits ang sweet spot: cheap, fast enough, at dead-on accurate. Ang o4-mini ng Azure ay mahusay din (100% accuracy, decent speed) ngunit higit sa 5x mas mahal kaysa sa Grok-4. Ang GPT-5 Nano ay mahirap na halaga, ngunit maghintay ka ng 8+ segundo para sa bawat solusyon, na kung saan ay tumutulong sa aming workflow. Nasaan na kami mula dito Sa loob ng isang taon na ang nakalipas, ang GPT-4o ay isa sa mga pinaka-advanced at reliable na mga pagpipilian. Kami ay binuo ng mga malaking bahagi ng aming produkto sa paligid nito. Ngunit ang oras ay lumabas mabilis sa AI land. Ang kung ano ang pandaigdigang nakaraan noong nakaraang summer ay nakikita na mabigat ngayon. Hindi lamang ito nagbibigay-daan sa amin ng isang mas mahusay na pagpipilian para sa pag-evaluation ng mga kandidato, ngunit din ito ay nagdadalang sa akin na gusto kong i-review ang iba pang mga bahagi ng aming application kung saan kami blindly tinitiyak sa GPT-4o. Ang landscape ay nagbabago, at kung hindi mo patuloy na pagsubok, maaari mong tumingin sa isang araw na malaman na ang iyong AI ay confidently nagbibigay sa iyo ng mga katotohanan ... sa rekord na bilis. Kaya ano, GPT-4o, salamat sa iyong serbisyo. Ngunit ito ay nagpapakita na ang Grok-4 Fast Reasoning ay gumagawa ng iyong lugar sa table.