Topliner में, हम कार्यकारी खोज परियोजनाओं के लिए उम्मीदवारों की प्रासंगिकता का मूल्यांकन करने के लिए एआई का उपयोग करते हैं. विशेष रूप से, हम GPT-4o पर भरोसा करते हैं, क्योंकि, ठीक है ... उस समय यह डिब्बे में सबसे तेज चाकू में से एक था। और उचित होने के लिए, यह ज्यादातर काम करते हैं। ज्यादातर समस्या? हर समय, जीपीटी-4ओ गुमराह हो जाता है. यह तय करता है कि एक पूरी तरह से प्रासंगिक उम्मीदवार को एक तरफ फेंक दिया जाना चाहिए, या कि कोई व्यक्ति जो पूरी तरह से irrelevant है, एक सोने के टिकट के लायक है. यह एक सिक्के को फ्लिप करने की तरह है, लेकिन एक फैंसी एपीआई के साथ। इसलिए, मैंने सोचना शुरू किया: क्या यह आगे बढ़ने का समय है? आदर्श रूप से, नए मॉडल को माइक्रोसॉफ्ट Azure पर उपलब्ध होना चाहिए (हम पहले से ही उनकी बुनियादी ढांचे में जुड़े हैं, साथ ही मुफ्त टोकन के लिए माइक्रोसॉफ्ट को चिल्लाते हैं - अभी भी उन पर चलते हैं, धन्यवाद दोस्तों)। यहां हमारे लिए क्या मायने रखता है: यदि हम सिस्टम के माध्यम से दो बार एक ही उम्मीदवार प्रोफ़ाइल चलाते हैं, तो मॉडल को एक बार "हां" और अगली बार "नहीं" नहीं कहना चाहिए। गति – यदि यह बहुत लंबे समय तक सोचता है, तो पूरे पाइपलाइन धीमा हो जाता है। लागत – आदर्श रूप से जीपीटी-4o की तुलना में सस्ता है. यदि यह बहुत सस्ता है, तो और भी बेहतर। हाल ही में, मैंने XAI के नए मॉडल, जो गति, किफायती, और स्मार्ट तर्क का वादा किया. स्वाभाविक रूप से, मैंने इसे परीक्षण में रखा। Grok-4 Fast Reasoning सेटअप मैंने एक के आसपास एक परीक्षण डिज़ाइन किया " " - एक ऐसा मामला जहां GPT-4o आमतौर पर विफल होता है। प्रिंट ने मॉडल को यह तय करने के लिए कहा कि क्या एक उम्मीदवार ने कभी स्पेसएक्स में "सीएफओ / मुख्य वित्तीय अधिकारी / वीपी वित्तीय / निदेशक वित्तीय / एसवीपी वित्तीय" के बराबर एक भूमिका निभाई है (नाम, दायरे और वरिष्ठता में सभी अपेक्षित परिवर्तनों के साथ)। problem candidate profile यहाँ हमने इस्तेमाल किया त्वरित: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] सिद्धांत रूप में सरल, लेकिन आश्चर्यजनक रूप से प्रभावी तरीका है कि वे मॉडल जो रंगों को समझते हैं, उन लोगों से अलग करें जो हल्सी या अनुमान लगाते हैं। मैंने इस प्रयोग को पार कर लिया जिसमें शामिल हैं: 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. सभी मॉडलों में अंतिम तुलना Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (रेंज), 1/10 सही (10%), $ 12.69 प्रति 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (रेंज), 10/10 सही (100%), $ 5.47 प्रति 1000 req xAI Grok-4 त्वरित तर्क: 2.83s (avg), 2.39-4.59s (रेंज), 10/10 सही (100%), $0.99 प्रति 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (रेंज), 0/10 सही (0%), $10.80 प्रति 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (रेंज), 10/10 सही (100%), $ 5.53 प्रति 1000 req xAI Grok-3 मिनी: 5.65s (avg), 4.61-6.99s (रेंज), 10/10 सही (100%), $1.47 प्रति 1000 req OpenAI GPT-5 नैनो: 8.04s (avg), 6.46-10.44s (रेंज), 10/10 सही (100%), $0.29 प्रति 1000 req OpenAI GPT-5 मिनी: 9.7s (avg), 5.46-20.84s (रेंज), 10/10 सही (100%), $ 1.37 प्रति 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (रेंज), 10/10 सही (100%), $ 6.62 प्रति 1000 req Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 सही (100%), 2.68s avg प्रतिक्रिया, $ 5.47 प्रति 1000 req xAI Grok-4 त्वरित तर्क: 10/10 सही (100%), 2.83s avg प्रतिक्रिया, $ 0.99 प्रति 1000 req Azure OpenAI o3-mini: 10/10 सही (100%), 4.23s avg प्रतिक्रिया, $ 5.53 प्रति 1000 req xAI Grok-3 मिनी: 10/10 सही (100%), 5.65s avg प्रतिक्रिया, $ 1.47 प्रति 1000 req OpenAI GPT-5 नैनो: 10/10 सही (100%), 8.04s एफ़जी प्रतिक्रिया, $ 0.29 प्रति 1000 req OpenAI GPT-5 मिनी: 10/10 सही (100%), 9.7s avg प्रतिक्रिया, $ 1.37 प्रति 1000 req OpenAI GPT-5 2025-08-07: 10/10 सही (100%), 13.98s avg प्रतिक्रिया, $ 6.62 प्रति 1000 req Azure OpenAI GPT-4o: 1/10 सही (10%), 1.26s avg प्रतिक्रिया, $ 12.69 प्रति 1000 req OpenAI GPT-4.1: 0/10 सही (0%), 3.58s एफ़जी प्रतिक्रिया, $ 10.80 प्रति 1000 req Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 नैनो: $ 0.29 प्रति 1000 req, 10/10 सही (100%), 8.04s एफजी प्रतिक्रिया xAI Grok-4 त्वरित तर्क: $ 0.99 प्रति 1000 req, 10/10 सही (100%), 2.83s avg जवाब OpenAI GPT-5 मिनी: $ 1.37 प्रति 1000 req, 10/10 सही (100%), 9.7s avg जवाब xAI Grok-3 मिनी: $ 1.47 प्रति 1000 req, 10/10 सही (100%), 5.65s avg जवाब Azure OpenAI o4-mini: $ 5.47 प्रति 1000 req, 10/10 सही (100%), 2.68s avg प्रतिक्रिया Azure OpenAI o3-mini: $ 5.53 प्रति 1000 req, 10/10 सही (100%), 4.23s एफजी प्रतिक्रिया OpenAI GPT-5 2025-08-07: $ 6.62 प्रति 1000 req, 10/10 सही (100%), 13.98s avg जवाब OpenAI GPT-4.1: $10.80 प्रति 1000 req, 0/10 सही (0%), 3.58s avg जवाब Azure OpenAI GPT-4o: $ 12.69 प्रति 1000 req, 1/10 सही (10%), 1.26s avg प्रतिक्रिया Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 त्वरित तर्क: 93.1/100 कुल ├── गति: 88/100 (2.83 सेकंड avg) ├── लागत: 94/100 ($ 0.99 प्रति 1000 req) └─— सटीकता: 100/100 (10/10 सही) xAI Grok-3 मिनी: 82.5/100 कुल ├── गति: 65/100 (5.65s avg) ├── लागत: 90/100 ($ 1.47 प्रति 1000 रैक) └─— सटीकता: 100/100 (10/10 सही) Azure OpenAI o4-mini: 80.9/100 कुल मिलाकर ├── गति: 89/100 (2.68s avg) ├── लागत: 58/100 ($ 5.47 प्रति 1000 रैक) └─— सटीकता: 100/100 (10/10 सही) OpenAI GPT-5 नैनो: 78.8/100 कुल│── गति: 47/100 (8.04s avg)│─— लागत: 100/100 ($0.29 प्रति 1000 req)│─— सटीकता: 100/100 (10/10 सही) Azure OpenAI o3-mini: 76.1/100 कुल ├── गति: 77/100 (4.23s avg) ├── लागत: 58/100 ($ 5.53 प्रति 1000 req) └─ सटीकता: 100/100 (10/10 सही) OpenAI GPT-5 मिनी: 70.5/100 कुल ├── गति: 34/100 (9.7s avg) ├── लागत: 91/100 ($ 1.37 प्रति 1000 req) └─ सटीकता: 100/100 (10/10 सही) Azure OpenAI GPT-4o: 42.5/100 कुल ├── गति: 100/100 (1.26s avg) ├── लागत: 0/100 ($ 12.69 प्रति 1000 req) └─ सटीकता: 10/100 (1/10 सही) OpenAI GPT-5 2025-08-07: 42.2/100 कुल ├── गति: 0/100 (13.98s avg) ├── लागत: 49/100 ($ 6.62 प्रति 1000 req) └─ सटीकता: 100/100 (10/10 सही) OpenAI GPT-4.1: 38.1/100 कुल ├── गति: 82/100 (3.58s avg) ├── लागत: 15/100 ($10.80 प्रति 1000 req) └─ सटीकता: 0/100 (0/10 सही) Overall Statistics: ♂️ सबसे तेज़ व्यक्तिगत प्रतिक्रिया: 0.75 सेकंड (Azure OpenAI GPT-4o) सबसे धीमी व्यक्तिगत प्रतिक्रिया: 21.25 सेकंड (OpenAI GPT-5 2025-08-07) सबसे सटीक मॉडल: OpenAI GPT-5 Nano (100%) सबसे कम सटीक मॉडल: OpenAI GPT-4.1 (0%) सबसे महंगा मॉडल: Azure OpenAI GPT-4o (12,69 $ प्रति 1000 req) 💎 सबसे लागत प्रभावी मॉडल: OpenAI GPT-5 नैनो ($ 0.29 प्रति 1000 req) सभी परीक्षणों के लिए कुल लागत: $ 0.452 और विजेता है... xAI Grok-4 तेजी से तर्क (The Star of the Show) सटीकता: 10/10 (100%) गति: 2.83 सेकंड औसत (2.39 सेकंड सबसे तेज़, 4.59 सेकंड सबसे धीमी) लागत: $ 0.99 प्रति 1000 अनुरोध सस्ता, सटीक, और उचित रूप से तेजी से। (यह क्रोन जीपीटी-4o पर जाता है), लेकिन जीपीटी-4o को ध्यान में रखते हुए केवल सही जवाब दिया गया है , मैं अधिक विश्वसनीय तरीके के लिए थोड़ा धीरे-धीरे ले लूंगा। सबसे तेज 1 out of 10 times कुंजी Takeaways GPT-4o इस कार्य के लिए तेज़ है लेकिन अविश्वसनीय है. स्प्रिंट करने में अच्छा है, अपनी लाइन में रहने में भयानक है। Grok-4 त्वरित तर्क मीठा बिंदु पर हिट करता है: सस्ता, पर्याप्त तेजी से, और मृत-आधारित सटीक। Azure का o4-mini भी मजबूत (100% सटीकता, सभ्य गति) है, लेकिन Grok-4 की तुलना में 5 गुना अधिक महंगा है। जीपीटी-5 नैनो मजाकिया रूप से सस्ता है, लेकिन आप प्रत्येक जवाब के लिए 8 सेकंड इंतजार करेंगे, जो हमारे कार्य प्रवाह को तोड़ देता है। हम कहां से जा रहे हैं एक साल पहले, जीपीटी-4ओ सबसे उन्नत और विश्वसनीय विकल्पों में से एक था। हमने इसके चारों ओर अपने उत्पाद के बड़े टुकड़ों का निर्माण किया. लेकिन समय एआई भूमि में तेजी से चलता है. जो पिछले गर्मियों में उन्नत था, आज डरावना दिखता है। Grok-4 के साथ यह छोटा प्रयोग आंखों को खोलने वाला था. न केवल यह हमें उम्मीदवार मूल्यांकन के लिए एक बेहतर विकल्प देता है, बल्कि यह मुझे हमारे आवेदन के अन्य हिस्सों को फिर से देखने के लिए प्रेरित करता है जहां हम अंधेरे में GPT-4o पर भरोसा करते हैं। कहानी की नैतिकता: अपने मॉडल से बहुत जुड़े न हों. परिदृश्य बदलता है, और यदि आप परीक्षण नहीं करते हैं, तो आप एक दिन जाग सकते हैं और महसूस कर सकते हैं कि आपका एआई आपको गलत जवाब देता है ... रिकॉर्ड गति में। तो हाँ, जीपीटी-एक्सएनयूएमएक्स, आपकी सेवा के लिए धन्यवाद. लेकिन ऐसा लगता है कि ग्रोक-एक्सएनयूएमएक्स त्वरित तर्क टेबल पर आपकी सीट ले रहा है।