Topliner میں، ہم کاروباری تلاش کے منصوبوں کے لئے امیدواروں کی اہمیت کا اندازہ کرنے کے لئے AI کا استعمال کرتے ہیں. خاص طور پر، ہم GPT-4o پر بھروسہ کرتے ہیں، کیونکہ، ٹھیک ہے ... اس وقت، یہ خریدار میں سب سے تیز چاقو میں سے ایک تھا. انصاف کے لئے، یہ زیادہ تر کام کرتا ہے. زیادہ تر مسئلہ؟ ہر وقت، GPT-4o غلط ہو جاتا ہے. یہ فیصلہ کرتا ہے کہ ایک مکمل طور پر متعلقہ کانگریس کو ایک طرف ہٹا دیا جانا چاہئے، یا کسی مکمل طور پر غیر متعلقہ شخص کو ایک سونے کا ٹکٹ ملتا ہے. یہ ایک کرنسی کو تبدیل کرنے کی طرح ہے، لیکن ایک فینسی API کے ساتھ. لہذا، میں نے پوچھا: کیا یہ آگے بڑھنے کا وقت ہے؟ Ideally, the new model should be available on Microsoft Azure (We are already tied into their infrastructure, plus shoutout to Microsoft for the free tokens – still running on those, thanks guys). یہاں ہمارے لئے اہم ہے: درستگی - سب سے اوپر ترجیح. اگر ہم نظام کے ذریعے ایک ہی امیدوار پروفائل دو بار چلائیں تو، ماڈل ایک بار "ہاں" اور اگلی بار "نہیں" نہیں کہنا چاہئے. رفتار - اگر یہ بہت طویل سوچتا ہے تو، پورے پائپ لائن کم ہو جاتا ہے. GPT-4o کے ~1.2 سیکنڈ فی جواب ایک بہت اچھا بینکنگ ہے. قیمت – GPT-4o کے مقابلے میں مثالی طور پر سستا. اگر یہ بہت سستا ہے تو، اس سے بھی بہتر. حال ہی میں، میں نے XAI کے نئے پر قبضہ کیا ماڈل، جس نے تیز رفتار، سستی، اور ذہین تفہیم کا وعدہ کیا. Grok-4 Fast Reasoning انسٹال میں نے ایک کے ارد گرد ایک ٹیسٹ ڈیزائن کیا " " - ایک معاملہ جہاں GPT-4o عام طور پر ناکام ہوتا ہے. پروپٹ نے ماڈل کو یہ فیصلہ کرنے کے لئے پوچھا کہ کیا ایک کانگریس نے کبھی SpaceX میں "CFO / Chief Financial Officer / VP Finance / Director Finance / SVP Finance" کے برابر کردار ادا کیا ہے (ٹائپ، مقاصد، اور قدیمیت میں تمام متوقع تبدیلیوں کے ساتھ). problem candidate profile یہاں وہ فوری طور پر استعمال کیا گیا ہے: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] نظریاتی طور پر سادہ، لیکن حیرت انگیز طور پر مؤثر طریقہ یہ ہے کہ ماڈلوں کو جدا کرنے کے لئے جو توازن کو سمجھتے ہیں اور وہ لوگ جو حوصلہ افزائی کرتے ہیں. میں نے اس تجربے کو چلایا شامل ہے: 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. تمام ماڈلوں کے درمیان آخری موازنہ Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg)، 0.75-1.98s (تاریخ)، 1/10 درست (10٪)، $12.69 فی 1000 req Azure OpenAI o4-mini: 2.68s (avg)، 1.84-3.53s (تاریخ)، 10/10 درست (100٪)، $5.47 فی 1000 req xAI Grok-4 فوری تفہیم: 2.83s (avg)، 2.39-4.59s (تاریخ)، 10/10 درست (100%), $0.99 فی 1000 req OpenAI GPT-4.1: 3.58s (avg)، 2.66-5.05s (تاریخ)، 0/10 درست (0%), $10.80 فی 1000 req Azure OpenAI o3-mini: 4.23s (avg)، 2.56-5.94s (تاریخ)، 10/10 درست (100٪)، $5.53 فی 1000 req xAI Grok-3 مینی: 5.65s (avg)، 4.61-6.99s (تاریخ)، 10/10 درست (100%), $1.47 فی 1000 req OpenAI GPT-5 نانو: 8.04s (avg)، 6.46-10.44s (تاریخ)، 10/10 درست (100٪)، $0.29 فی 1000 req OpenAI GPT-5 مینی: 9.7s (avg)، 5.46-20.84s (تاریخ)، 10/10 درست (100%), $1.37 فی 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg)، 9.31-21.25s (تاریخ)، 10/10 درست (100%), $ 6.62 فی 1000 req Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 درست (100%), 2.68s avg جواب، $ 5.47 فی 1000 req xAI Grok-4 فوری تفہیم: 10/10 درست (100%), 2.83s avg جواب، $ 0.99 فی 1000 req Azure OpenAI o3-mini: 10/10 درست (100٪)، 4.23s avg جواب، $ 5.53 فی 1000 req xAI Grok-3 مینی: 10/10 درست (100٪)، 5.65s avg جواب، $ 1.47 فی 1000 req OpenAI GPT-5 نانو: 10/10 درست (100%), 8.04s avg جواب، $ 0.29 فی 1000 req OpenAI GPT-5 مینی: 10/10 درست (100٪)، 9.7s avg جواب، $ 1.37 فی 1000 req OpenAI GPT-5 2025-08-07: 10/10 درست (100%), 13.98s avg جواب، $ 6.62 فی 1000 req Azure OpenAI GPT-4o: 1/10 درست (10٪)، 1.26s avg جواب، $ 12.69 فی 1000 req OpenAI GPT-4.1: 0/10 درست (0٪)، 3.58s avg جواب، $ 10.80 فی 1000 req Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 نانو: $0.29 فی 1000 req، 10/10 درست (100٪)، 8.04s avg جواب xAI Grok-4 فوری تفہیم: $ 0.99 فی 1000 req، 10/10 درست (100٪)، 2.83s avg جواب OpenAI GPT-5 مینی: $1.37 فی 1000 req، 10/10 درست (100٪)، 9.7s avg جواب xAI Grok-3 مینی: $1.47 فی 1000 req، 10/10 درست (100٪)، 5.65s avg جواب Azure OpenAI o4-mini: $ 5.47 فی 1000 req، 10/10 درست (100٪)، 2.68s avg جواب Azure OpenAI o3-mini: $ 5.53 فی 1000 req، 10/10 درست (100٪)، 4.23s avg جواب OpenAI GPT-5 2025-08-07: $ 6.62 فی 1000 req، 10/10 درست (100٪)، 13.98s avg جواب OpenAI GPT-4.1: $10.80 فی 1000 req، 0/10 درست (0٪)، 3.58s avg جواب Azure OpenAI GPT-4o: $12.69 فی 1000 req، 1/10 درست (10٪)، 1.26s avg جواب Overall Leaderboard (Speed + Cost + Accuracy): 🥇 xAI Grok-4 Fast Reasoning: 93.1/100 overall ├── رفتار: 88/100 (2.83s avg) ├── قیمت: 94/100 ($ 0.99 فی 1000 req) └── درستگی: 100/100 (10/10 درست) xAI Grok-3 مینی: 82.5/100 مجموعی ├── رفتار: 65/100 (5.65s avg) ├── قیمت: 90/100 ($ 1.47 فی 1000 req) └── درستگی: 100/100 (10/10 درست) Azure OpenAI o4-mini: کل 80.9/100 ├── رفتار: 89/100 (2.68s avg) ├── قیمت: 58/100 ($ 5.47 فی 1000 req) └── درستگی: 100/100 (10/10 درست) OpenAI GPT-5 Nano: 78.8/100 مجموعی ├── رفتار: 47/100 (8.04s avg) ├── قیمت: 100/100 ($0.29 فی 1000 req) └─ درستگی: 100/100 (10/10 درست) Azure OpenAI o3-mini: 76.1/100 مجموعی طور پر ── رفتار: 77/100 (4.23s avg) ── قیمت: 58/100 ($5.53 فی 1000 req) ── درستگی: 100/100 (10/10 درست) OpenAI GPT-5 مینی: 70.5/100 مجموعی ├── رفتار: 34/100 (9.7s avg) ├── قیمت: 91/100 ($1.37 فی 1000 req) └─ درستگی: 100/100 (10/10 درست) Azure OpenAI GPT-4o: 42.5/100 مجموعی طور پر ── رفتار: 100/100 (1.26s avg) ── قیمت: 0/100 ($12.69 فی 1000 req) ── درستگی: 10/100 (1/10 درست) OpenAI GPT-5 2025-08-07: 42.2/100 مجموعی ├── رفتار: 0/100 (13.98s avg) ├── قیمت: 49/100 ($6.62 فی 1000 req) └─ درستگی: 100/100 (10/10 درست) OpenAI GPT-4.1: 38.1/100 مجموعی ├── رفتار: 82/100 (3.58s avg) ├── قیمت: 15/100 ($10.80 فی 1000 req) └─ درستگی: 0/100 (0/10 درست) Overall Statistics: ♂️ سب سے تیز انفرادی جواب: 0.75 سیکنڈ (Azure OpenAI GPT-4o) کم از کم انفرادی جواب: 21.25 سیکنڈ (OpenAI GPT-5 2025-08-07) سب سے زیادہ درست ماڈل: OpenAI GPT-5 Nano (100٪) ❌ Least accurate model: OpenAI GPT-4.1 (0%) سب سے زیادہ مہنگی ماڈل: Azure OpenAI GPT-4o (12.69 $ / 1000 req) 💎 سب سے زیادہ منافع بخش ماڈل: OpenAI GPT-5 نانو ($ 0.29 فی 1000 req) تمام ٹیسٹ کے لئے مجموعی قیمت: $ 0.452 اور جیتنے والا ہے ... xAI Grok-4 Fast Reasoning (سارے کے ستارے) درستگی: 10/10 (100٪) رفتار: 2.83s اوسط (2.39s سب سے تیز، 4.59s سب سے کم) قیمت: $ 0.99 فی 1000 درخواستیں سستا، درست، اور مناسب طور پر تیزی سے. (یہ سرون GPT-4o پر جاتا ہے)، لیکن GPT-4o پر غور کرتے ہوئے صرف صحیح جواب دیا گیا ہے ، میں نے زیادہ قابل اعتماد طریقے کے لئے تھوڑا سا کم ہو جائے گا. سب سے تیز 1 out of 10 times اہم Takeaways GPT-4o اس کام کے لئے تیزی سے لیکن غیر قابل اعتماد ہے. سپینٹنگ میں بہت اچھا ہے، اس کی راہ میں رہنے میں خوفناک ہے. Grok-4 Fast Reasoning شیرین نقطہ پر پہنچتا ہے: سستا، کافی تیزی سے، اور dead-on درست. Azure کا o4-mini بھی طاقتور ہے (100٪ درستگی، مناسب رفتار) لیکن Grok-4 سے 5x زیادہ مہنگی ہے. GPT-5 نانو مضحکہ خفیہ طور پر سستا ہے، لیکن آپ ہر جواب کے لئے 8+ سیکنڈ کا انتظار کریں گے، جو ہمارے کام کی رفتار کو توڑتا ہے. ہم یہاں سے کہاں جا رہے ہیں ایک سال قبل، GPT-4o سب سے زیادہ اعلی درجے اور قابل اعتماد اختیارات میں سے ایک تھا. ہم نے اس کے ارد گرد ہمارے مصنوعات کے بڑے ٹکڑے بنائے. لیکن AI زمین میں وقت تیزی سے چلتا ہے. جو گزشتہ موسم گرما میں پیشہ ورانہ تھا، آج چمکدار نظر آتا ہے. Grok-4 کے ساتھ یہ چھوٹا سا تجربہ آنکھیں کھولنے کے لئے تھا. نہ صرف یہ ہمیں امیدوار کی تجزیہ کے لئے ایک بہتر اختیار فراہم کرتا ہے، لیکن یہ بھی مجھے ہماری درخواست کے دیگر حصوں کو دوبارہ دیکھنا چاہتا ہے جہاں ہم اندھا طور پر GPT-4o پر بھروسہ کرتے ہیں. کہانی کی اخلاقیات: آپ کے ماڈلوں کے ساتھ بہت زیادہ منسلک نہ ہو. ملکیت بدل جاتا ہے، اور اگر آپ ٹیسٹ نہیں کرتے ہیں، تو آپ ایک دن آپ کو محسوس ہوسکتا ہے کہ آپ کی AI آپ کو غلط جوابات دے رہا ہے ... ریکارڈ رفتار میں. تو جی ہاں، GPT-4o، آپ کی خدمت کے لئے آپ کا شکریہ. لیکن یہ لگتا ہے کہ Grok-4 Fast Reasoning میز پر آپ کی نشست لے رہا ہے.