Topliner- ში, ჩვენ ვიყენებთ AI- ის გამოყენებით, რათა შეამოწმოთ კლიენტების მნიშვნელობა მენეჯმენტის კვლევის პროექტებს. სპეციფიკურად, ჩვენ დააყენებთ GPT-4o- ს, რადგან, კარგი ... ამ დროს, ეს იყო ერთ-ერთი უხვილესი მეშვეობით. და, როგორც გაცნობიარე, ეს ძირითადად ყველაზე პრობლემა? ყოველდღიურად, GPT-4o იღებს უარყოფითი. ეს აირჩიებს, რომ სრულყოფილი მნიშვნელობა კლიენტს უნდა დატოვოთ, ან, რომ ვინმეს უარყოფითი ღირს ფოლადის ბილეთზე. ეს არის, როგორც ვალდებულების გადარჩენა, მაგრამ ფანტასტიკური API- სთან ერთად. პროგნოზირება არ არის ფანჯარა, და ჩვენი სამუშაო ხაზი, ეს არ არის აღიარებული. ასე რომ, მე დაიწყე ფიქრობას: ახლა არის დრო, რომ გადაწყვიტოს? იდეალურად, ახალი მოდელი უნდა იყოს ხელმისაწვდომი Microsoft Azure- ში (სავარაუდოდ, ჩვენ უკვე შეესაბამება მათი ინფრასტრუქტურის, და Microsoft- სთვის უფასო tokens - ჯერ კიდევ იღებს მათ, მადლობა მამაკაცებს). მაგრამ თუ არა, ნებისმიერი სხვა მოდელი, რომელიც გააკეთებს სამუშაო. აქ არის ის, რაც მნიშვნელოვანია ჩვენთვის: ზუსტი – უმაღლესი Priority. თუ ჩვენ გაქირავებთ იგივე კლიენტების პროფილი სისტემის მეშვეობით ორჯერ, მოდელი არ უნდა ვთქვა “და” ერთხელ და “და” მომდევნო დროს. პროგნოზირება და სწორი არის ყველაფერი. სიჩქარე – თუ ძალიან ხანგრძლივი ვფიქრობ, მთელი მილები იძლევა. GPT-4O ~ 1.2 წამში თითო პასუხი არის საკმაოდ კარგი ნიმუში. ღირებულება – იდეალურად იაფი, ვიდრე GPT-4o. თუ ეს არის ბევრი იაფი, კიდევ უკეთესი. ახალი ამბები XAI- ს მოდელი, რომელიც გთავაზობთ სიჩქარე, ხელმისაწვდომობა, და ჭეშმარიტი განიხილება. რა თქმა უნდა, მე დააყენა ეს ტესტი. Grok-4 Fast Reasoning სტატისტიკა მე დიზაინი ტესტი დაახლოებით ერთი " " - შემთხვევაში, სადაც GPT-4o ჩვეულებრივ არ არის. მოითხოვს მოდელი გადაწყვიტოს, თუ კლიენტს უკვე გაქვთ როლი, რომელიც შეესაბამება "CFO / Chief Financial Officer / VP Finance / Director Finance / SVP Finance" SpaceX- ში (ს ყველა მოწინავე მოვლენები Title, scope, და seniority). problem candidate profile აქ არის მოთხოვნა, რომელიც მე გამოიყენება: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] მარტივი θεωρητικά, მაგრამ შეუზღუდავი ეფექტური გზა აირჩიოთ მოდელები, რომლებიც განიცდიან ნიმუში, მათგან, რომლებიც ჰოლუზიანებენ ან დაფიქსირებენ. ექსპერიმენტი მეშვეობით მათ შორის : 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. საბოლოო შედარებით ყველა მოდელები Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (სართობი), 1/10 correct (10%), $12.69 თითო 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (შემატა), 10/10 correct (100%), $5.47 per 1000 req xAI Grok-4 სწრაფი განიხილება: 2.83s (avg), 2.39-4.59s (ზომის), 10/10 სწორი (100%), $ 0.99 per 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (სართობი), 0/10 სწორი (0%), $10.80 თითო 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (სართობი), 10/10 სწორი (100%), $ 5.53 თითო 1000 req xAI Grok-3 მინი: 5.65s (avg), 4.61-6.99s (სართობი), 10/10 სწორი (100%), $ 1.47 თითო 1000 req OpenAI GPT-5 Nano: 8.04s (avg), 6.46-10.44s (შემატა), 10/10 სწორი (100%), $ 0.29 თითო 1000 req OpenAI GPT-5 Mini: 9.7s (avg), 5.46-20.84s (შემატა), 10/10 სწორი (100%), $ 1.37 თითო 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (სართობი), 10/10 სწორი (100%), $ 6.62 per 1000 req Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 სწორი (100%), 2.68s avg პასუხი, $ 5.47 თითო 1000 req xAI Grok-4 Fast Reasoning: 10/10 სწორი (100%), 2.83s avg პასუხი, $ 0.99 თითო 1000 req Azure OpenAI o3-mini: 10/10 სწორი (100%), 4.23s avg პასუხი, $ 5.53 თითო 1000 req xAI Grok-3 მინი: 10/10 სწორი (100%), 5.65s avg პასუხი, $ 1.47 თითო 1000 req OpenAI GPT-5 Nano: 10/10 სწორი (100%), 8.04s avg პასუხი, $ 0.29 თითო 1000 req OpenAI GPT-5 Mini: 10/10 სწორი (100%), 9.7s avg პასუხი, $ 1.37 თითო 1000 req OpenAI GPT-5 2025-08-07: 10/10 სწორი (100%), 13.98s avg პასუხი, $ 6.62 თითო 1000 req Azure OpenAI GPT-4o: 1/10 correct (10%), 1.26s avg პასუხი, $ 12.69 per 1000 req OpenAI GPT-4.1: 0/10 სწორი (0%), 3.58s avg პასუხი, $ 10.80 თითო 1000 req Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 Nano: $ 0.29 per 1000 req, 10/10 correct (100%), 8.04s avg პასუხი xAI Grok-4 Fast Reasoning: $ 0.99 per 1000 req, 10/10 correct (100%), 2.83s avg პასუხი OpenAI GPT-5 Mini: $ 1.37 per 1000 req, 10/10 correct (100%), 9.7s avg პასუხი xAI Grok-3 Mini: $ 1.47 per 1000 req, 10/10 correct (100%), 5.65s avg პასუხი Azure OpenAI o4-mini: $ 5.47 per 1000 req, 10/10 correct (100%), 2.68s avg პასუხი Azure OpenAI o3-mini: $ 5.53 per 1000 req, 10/10 correct (100%), 4.23s avg პასუხი OpenAI GPT-5 2025-08-07: $ 6.62 per 1000 req, 10/10 correct (100%), 13.98s avg პასუხი OpenAI GPT-4.1: $10.80 თითო 1000 req, 0/10 სწორი (0%), 3.58s avg პასუხი Azure OpenAI GPT-4o: $ 12,69 per 1000 req, 1/10 correct (10%), 1.26s avg პასუხი Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 სწრაფი მიზეზი: 93.1/100 საერთო ├── სიჩქარე: 88/100 (2.83s avg) ├── ღირებულება: 94/100 ($ 0.99 თითო 1000 req) └── სიზუსტით: 100 / 100 (10 / 10) xAI Grok-3 Mini: 82.5/100 საერთო ├── სიჩქარე: 65/100 (5.65 ს avg) ├── ღირებულება: 90/100 ($ 1.47 თითო 1000 req) └── სიზუსტით: 100 / 100 (10 / 10) Azure OpenAI o4-mini: 80.9/100 საერთო ├── სიჩქარე: 89/100 (2.68s avg) ├── ღირებულება: 58/100 ($ 5.47 თითო 1000 req) └── სიზუსტით: 100 / 100 (10 / 10) OpenAI GPT-5 Nano: 78.8/100 საერთო├── სიჩქარე: 47/100 (8.04s avg)├── ღირებულება: 100/100 ($ 0.29 per 1000 req)└─ სიზუსტით: 100/100 (10/10 სწორი) Azure OpenAI o3-mini: 76.1/100 საერთო├── სიჩქარე: 77/100 (4.23s avg)├── ღირებულება: 58/100 ($5.53 per 1000 req)└─ სიზუსტით: 100/100 (10/10 სწორი) OpenAI GPT-5 Mini: 70.5/100 საერთო├── სიჩქარე: 34/100 (9.7s avg)├── ღირებულება: 91/100 ($ 1.37 per 1000 req)└─ სიზუსტით: 100/100 (10/10 სწორი) Azure OpenAI GPT-4o: 42.5/100 საერთო ─ სიჩქარე: 100/100 (1.26s avg) ─ ღირებულება: 0/100 ($12.69 per 1000 req) ─ სიზუსტით: 10/100 (1/10 სწორი) OpenAI GPT-5 2025-08-07: 42.2/100 საერთო├── სიჩქარე: 0/100 (13.98s avg)├── ღირებულება: 49/100 ($6.62 per 1000 req)└─ სიზუსტით: 100/100 (10/10 სწორი) OpenAI GPT-4.1: 38.1/100 საერთო ─ სიჩქარე: 82/100 (3.58s avg) ─ ღირებულება: 15/100 ($10.80 თითო 1000 req) ─ სიზუსტით: 0/100 (0/10 სწორი) Overall Statistics: ♂️ სწრაფი ინდივიდუალური პასუხი: 0.75 წამში (Azure OpenAI GPT-4o) მინიმუმ ინდივიდუალური პასუხი: 21.25 წამში (OpenAI GPT-5 2025-08-07) ყველაზე ზუსტი მოდელი: OpenAI GPT-5 Nano (100%) 💡 მინიმუმ სიზუსტით მოდელი: OpenAI GPT-4.1 (0%) ყველაზე ძვირადღირებული მოდელი: Azure OpenAI GPT-4o ($ 12,69 / 1000 req) ყველაზე ღირებულება ეფექტური მოდელი: OpenAI GPT-5 Nano ($ 0.29 / 1000 req) საერთო ღირებულება ყველა ტესტი: $ 0,452 Winner არის... XAI Grok-4 Fast Reasoning (სასვლელი სტრუქტურა) სიზუსტით: 10 / 10 (100%) სიჩქარე: 2.83 წამში (2.39 წამში სიჩქარე, 4.59 წამში სიჩქარე) ღირებულება: $ 0.99 თითო 1000 მოთხოვნა ხელმისაწვდომი, სწრაფი და მარტივი. არ არის (მაკონია GPT-4o), მაგრამ იმიტომ, რომ GPT-4o პასუხისმგებლობა მხოლოდ , მე იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ იღებ უამრავი სწრაფი 1 out of 10 times ძირითადი Takeaways GPT-4o არის სწრაფი, მაგრამ არ არის საიმედო ამ საქმიანობისთვის. დიდი sprinting, საოცარი შენარჩუნება მისი ხაზი. Grok-4 Fast Reasoning ეწვიოს Sweet Spot: ხელმისაწვდომი, სწრაფი და dead-on სიზუსტით. Azure- ის o4-mini ასევე ძლიერი (100% სიზუსტით, საკმაოდ სიჩქარე) მაგრამ მეტი 5x უფრო ღირებულა, ვიდრე Grok-4. GPT-5 Nano არის ცუდი იაფი, მაგრამ თქვენ დაველოდოთ 8+ წამში თითოეული პასუხი, რომელიც შეხვდა ჩვენი სამუშაო გზა. Where We Go From აქ ერთი წლის წინ, GPT-4o იყო ერთ-ერთი ყველაზე მოწინავე და საიმედო ვარიანტი. ჩვენ შეიქმნა დიდი ნაწილები ჩვენი პროდუქტი მასშტაბით. მაგრამ დრო სწრაფად იღებს AI ადგილას. რა იყო უპირატესობა ბოლო თებერვალში ჩანს ჩრდილოეთ დღეს. ეს მცირე ექსპერიმენტი Grok-4- ის გამოყენებით უპირატესობრივი იყო. არა მხოლოდ ჩვენ გვაძლევს უკეთესი ვარიანტი კლიენტების შეფასებისთვის, არამედ მივიღე გსურთ მოგზაურობა ჩვენი განაცხადის სხვა ნაწილებს, სადაც GPT-4o- ს უპირატესობად მივიღე. სინამდვილეში ცვლილებები, და თუ თქვენ არ გააგრძელებთ ტესტირება, თქვენ შეიძლება ერთხელ აღიაროთ, რომ თქვენი AI დარწმუნებული გთავაზობთ არასწორი პასუხი ... რეკლამა სიჩქარით. ასე რომ, რა თქმა უნდა, GPT-4o, მადლობა თქვენი მომსახურებისთვის. მაგრამ ჩანს, რომ Grok-4 Fast Reasoning იღებს თქვენი ადგილი მაგიდაზე.