En Topliner, utilizamos la IA para evaluar la relevancia de los candidatos para proyectos de búsqueda ejecutiva.Especificamente, nos basamos en GPT-4o, porque, bueno... en ese momento era uno de los cuchillos más agudos en el cajón. Y para ser justo, es trabajo, en su mayor parte La mayoría El problema? De vez en cuando, GPT-4o va a ser un fraude. Decide que un candidato perfectamente relevante debe ser echado de lado, o que alguien totalmente irrelevante merece un billete de oro.Es como girar una moneda, pero con una API fantástica. La predictibilidad está fuera de la ventana, y en nuestra línea de trabajo, eso es inaceptable. Entonces empecé a preguntarme: ¿es hora de seguir adelante? Idealmente, el nuevo modelo debería estar disponible en Microsoft Azure (ya estamos atados a su infraestructura, además de gritar a Microsoft por los tokens gratuitos - todavía se ejecuta en ellos, gracias chicos). Aquí está lo que nos importa: Precisión – Primera prioridad.Si ejecutamos el mismo perfil de candidato a través del sistema dos veces, el modelo no debe decir “sí” una vez y “no” la próxima vez. Velocidad – Si piensa demasiado, todo el tubo se ralentiza. ~1,2 segundos de GPT-4o por respuesta es una buena referencia. Coste – Idealmente más barato que GPT-4o. Si es mucho más barato, aún mejor. Recientemente, me encontré con el nuevo de XAI modelo, que prometía velocidad, asequibilidad y razonamiento inteligente. por supuesto, lo puse a prueba. Grok-4 Fast Reasoning El establecimiento He diseñado una prueba alrededor de uno " El prompt pidió al modelo que decidiera si un candidato había ocupado alguna vez un papel equivalente a “CFO / Chief Financial Officer / VP Finance / Director Finance / SVP Finance” en SpaceX (con todas las variaciones esperadas en título, alcance y senioridad). problem candidate profile Esta es la prompt que usé: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] Simples en teoría, pero una manera sorprendentemente efectiva de separar los modelos que entienden los matices de los que alucinan o adivinan. Hice el experimento a través de , incluyendo a : 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. Comparación final entre todos los modelos Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (rango), 1/10 correcto (10%), $12.69 por 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (rango), 10/10 correcto (100%), $5.47 por 1000 req xAI Grok-4 Razonamiento rápido: 2.83s (avg), 2.39-4.59s (rango), 10/10 correcto (100%), $0.99 por 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (rango), 0/10 correcto (0%), $10.80 por 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (rango), 10/10 correcto (100%), $5.53 por 1000 req xAI Grok-3 Mini: 5.65s (avg), 4.61-6.99s (rango), 10/10 correcto (100%), $1.47 por 1000 req OpenAI GPT-5 Nano: 8.04s (avg), 6.46-10.44s (rango), 10/10 correcto (100%), $0.29 por 1000 req OpenAI GPT-5 Mini: 9.7s (avg), 5.46-20.84s (rango), 10/10 correcto (100%), $1.37 por 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (rango), 10/10 correcto (100%), $6.62 por 1000 req Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 correcto (100%), respuesta de 2.68s avg, $5.47 por 1000 req xAI Grok-4 Fast Reasoning: 10/10 correcto (100%), respuesta de 2.83s avg, $0.99 por 1000 req Azure OpenAI o3-mini: 10/10 correcto (100%), respuesta de avg de 4.23s, $5.53 por 1000 req xAI Grok-3 Mini: 10/10 correcto (100%), respuesta de 5.65s avg, $1.47 por 1000 req OpenAI GPT-5 Nano: 10/10 correcto (100%), respuesta avg de 8.04s, $0.29 por 1000 req OpenAI GPT-5 Mini: 10/10 correcto (100%), 9.7s de respuesta de avg, $1.37 por 1000 req OpenAI GPT-5 2025-08-07: 10/10 correcto (100%), 13.98s respuesta avg, $6.62 por 1000 req Azure OpenAI GPT-4o: 1/10 correcto (10%), respuesta de avg de 1.26s, $ 12,69 por 1000 req OpenAI GPT-4.1: 0/10 correcto (0%), respuesta de avg de 3.58s, $10.80 por 1000 req Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 Nano: $0.29 por 1000 req, 10/10 correcto (100%), 8.04s avg respuesta xAI Grok-4 Fast Reasoning: $0.99 por 1000 req, 10/10 correcto (100%), 2.83s avg respuesta OpenAI GPT-5 Mini: $1.37 por 1000 req, 10/10 correcto (100%), 9.7s avg respuesta xAI Grok-3 Mini: $1.47 por 1000 req, 10/10 correcto (100%), respuesta de 5.65s avg Azure OpenAI o4-mini: $5.47 por 1000 req, 10/10 correcto (100%), respuesta de 2.68s avg Azure OpenAI o3-mini: $5.53 por 1000 req, 10/10 correcto (100%), respuestas avg de 4.23s OpenAI GPT-5 2025-08-07: $6.62 por 1000 req, 10/10 correcto (100%), 13.98s avg respuesta OpenAI GPT-4.1: $10.80 por 1000 req, 0/10 correcto (0%), 3.58s avg respuesta Azure OpenAI GPT-4o: $12.69 por 1000 req, 1/10 correcto (10%), respuesta avg de 1.26s Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 Fast Reasoning: 93.1/100 en general ├── Velocidad: 88/100 (2.83s avg) ├── Costo: 94/100 ($0.99 por 1000 req) └─ Precisión: 100/100 (10/10 correcto) xAI Grok-3 Mini: 82.5/100 en general ├── Velocidad: 65/100 (5.65s avg) ├── Costo: 90/100 ($1.47 por 1000 req) └─ Precisión: 100/100 (10/10 correcto) Azure OpenAI o4-mini: 80.9/100 en general ├── Velocidad: 89/100 (2.68s avg) ├── Costo: 58/100 ($5.47 por 1000 req) └─ Precisión: 100/100 (10/10 correcto) OpenAI GPT-5 Nano: 78.8/100 en general ── Velocidad: 47/100 (8.04s avg) ─ Costo: 100/100 ($0.29 por 1000 req) ─ Precisión: 100/100 (10/10 correcto) Azure OpenAI o3-mini: 76.1/100 en general ── Velocidad: 77/100 (4.23s avg) ─ Costo: 58/100 ($5.53 por 1000 req) ─ ─ Precisión: 100/100 (10/10 correcto) OpenAI GPT-5 Mini: 70.5/100 en general ── Velocidad: 34/100 (9.7s avg) ─ Costo: 91/100 ($1.37 por 1000 req) ─ Precisión: 100/100 (10/10 correcto) Azure OpenAI GPT-4o: 42.5/100 en general ── Velocidad: 100/100 (1.26s avg) ─ ─ Costo: 0/100 ($12.69 por 1000 req) ─ ─ Precisión: 10/100 (1/10 correcto) OpenAI GPT-5 2025-08-07: 42.2/100 en general ── Velocidad: 0/100 (13.98s avg) ─ Costo: 49/100 ($6.62 por 1000 req) ─ Precisión: 100/100 (10/10 correcto) OpenAI GPT-4.1: 38.1/100 en general ── Velocidad: 82/100 (3.58s avg) ─ Costo: 15/100 ($10.80 por 1000 req) ─ Precisión: 0/100 (0/10 correcto) Overall Statistics: ♂️ Respuesta individual más rápida: 0.75 segundos (Azure OpenAI GPT-4o) Respuesta individual más lenta: 21.25 segundos (OpenAI GPT-5 2025-08-07) Modelo más preciso: OpenAI GPT-5 Nano (100%) 💡 Modelo menos preciso: OpenAI GPT-4.1 (0%) 💰 El modelo más caro: Azure OpenAI GPT-4o ($ 12,69 por 1000 req) 💎 El modelo más rentable: OpenAI GPT-5 Nano ($ 0,29 por 1000 req) Coste total para todas las pruebas: $ 0,452 Y el ganador es... El nuevo Grok-4 Fast Reasoning (The Star of the Show) Precisión: 10/10 (100%) Velocidad: 2.83 s promedio (2.39 s más rápido, 4.59 s más lento) Precio: $0.99 por 1000 solicitudes barato, preciso y razonablemente rápido. (que la corona va a GPT-4o), pero considerando GPT-4o respondió correctamente sólo , Voy a tomar un poco más lento para una manera más confiable. El más rápido absoluto 1 out of 10 times Temas clave GPT-4o es rápido pero no confiable para esta tarea. Gran en el sprint, terrible en permanecer en su pista. Grok-4 Fast Reasoning llega al punto dulce: barato, lo suficientemente rápido y con precisión. El o4-mini de Azure también es fuerte (100% de precisión, velocidad decente) pero más de 5 veces más caro que Grok-4. GPT-5 Nano es ridiculamente barato, pero esperará 8+ segundos para cada respuesta, lo que rompe nuestro flujo de trabajo. A dónde vamos desde aquí Hace un año, GPT-4o era una de las opciones más avanzadas y fiables.Hemos construido grandes pedazos de nuestro producto alrededor de él.Pero el tiempo se mueve rápidamente en el terreno de la IA.Lo que era de vanguardia el verano pasado parece tembloroso hoy. No sólo nos da una mejor opción para la evaluación de candidatos, sino que también me hace querer volver a visitar otras partes de nuestra aplicación donde confiamos ciegamente en GPT-4o. El paisaje cambia, y si no continúas probando, podrías despertar un día y darte cuenta de que tu IA te está dando confiadamente las respuestas equivocadas... a una velocidad récord. Así que sí, GPT-4o, gracias por su servicio. pero parece que Grok-4 Fast Reasoning está tomando su asiento en la mesa.