paint-brush
क्लाउड 3.5 सॉनेट बनाम GPT-4o — एक ईमानदार समीक्षाद्वारा@aibites
45,938 रीडिंग
45,938 रीडिंग

क्लाउड 3.5 सॉनेट बनाम GPT-4o — एक ईमानदार समीक्षा

द्वारा Shrinivasan Sankar5m2024/07/02
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

क्लाउड सीरीज के मॉडल बनाने वाली कंपनी एंथ्रोपिक ने क्लाउड 3.5 सॉनेट जारी किया है। यह ऐसे समय में आया है जब हम सभी ने तर्क, सारांश आदि जैसे अधिकांश कार्यों के लिए GPT-4o को डिफ़ॉल्ट सर्वश्रेष्ठ मॉडल के रूप में स्वीकार कर लिया है। एंथ्रोपिक ने यह साहसिक दावा किया है कि उनका मॉडल बुद्धिमत्ता के लिए नया "उद्योग मानक" स्थापित करता है। उनके प्रकाशित परिणामों के अनुसार मॉडल 5 में से 4 विज़न कार्यों पर अत्याधुनिक प्रदर्शन का दावा करता है।

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - क्लाउड 3.5 सॉनेट बनाम GPT-4o — एक ईमानदार समीक्षा
Shrinivasan Sankar HackerNoon profile picture
0-item

क्लाउड सीरीज के मॉडल बनाने वाली कंपनी एंथ्रोपिक ने क्लाउड 3.5 सॉनेट जारी किया है। यह ऐसे समय में आया है जब हम सभी ने तर्क, सारांश आदि जैसे अधिकांश कार्यों के लिए GPT-4o को डिफ़ॉल्ट सर्वश्रेष्ठ मॉडल के रूप में स्वीकार कर लिया है। एंथ्रोपिक ने यह साहसिक दावा किया है कि उनका मॉडल बुद्धिमत्ता के लिए नया "उद्योग मानक" स्थापित करता है।

इसके अतिरिक्त, यदि आप इसे आज़माना चाहते हैं तो यह claude.ai पर निःशुल्क उपलब्ध है। इसलिए, हम उत्साहित हो गए और मॉडल का परीक्षण करना चाहते थे और इसकी तुलना GPT-4o से करना चाहते थे। यह लेख क्लाउड 3.5 के साथ जारी की गई सुविधाओं के अवलोकन से शुरू होता है और कोड जनरेशन के साथ-साथ तार्किक और गणितीय तर्क कार्यों पर GPT-4o के विरुद्ध इसका परीक्षण करता है।

मुख्य विशेषताएं

यह मॉडल तीन मुख्य विशेषताओं या नवीनताओं के साथ आता है, जिनके आधार पर उनका दावा है कि यह अधिकांश कार्यों में GPT-4o को मात देता है।

  • बेहतर दृष्टि कार्य। नीचे प्रकाशित परिणामों के अनुसार, यह मॉडल 5 में से 4 दृष्टि कार्यों पर अत्याधुनिक प्रदर्शन का दावा करता है।

  • 2x गति। GPT-4o या क्लाउड ओपस जैसे अपने पूर्ववर्तियों की तुलना में, क्लाउड सॉनेट 2X पीढ़ी की गति का दावा करता है।
  • आर्टिफैक्ट्स - कोड निर्माण और एनीमेशन जैसे कार्यों के लिए एक नया यूआई।

आइए इसकी विशेषताओं पर गहराई से विचार करें और इनकी तुलना LLM के लंबे समय से राज कर रहे राजा GPT-4o से करें।

शुरू करना

आरंभ करने के लिए हमें claude.ai वेबसाइट पर लॉग इन करना होगा और आर्टिफैक्ट्स सुविधा को सक्षम करना होगा। चूंकि यह एक प्रायोगिक सुविधा है, इसलिए हमें इसे सक्षम करना होगा। हमें फीचर पूर्वावलोकन के अंतर्गत जाना होगा और वहां से आर्टिफैक्ट्स को सक्षम करना होगा जैसा कि नीचे दिखाया गया है।

एक बार सक्षम होने के बाद, मॉडल कोडिंग या एनिमेशन जैसे आवश्यक कार्यों के लिए एक समर्पित विंडो दिखाएगा।

दृष्टि कार्य - दृश्य तर्क

बेहतर दृश्य तर्क क्षमता का परीक्षण करने के लिए, हमने नीचे दिए गए दो प्लॉट को क्लाउड सॉनेट मॉडल पर अपलोड किया और सवाल पूछा, "आप इस डेटा से क्या समझ सकते हैं?"।

दृश्य तर्क के परीक्षण के लिए चित्र के रूप में प्लॉट

क्लाउड सॉनेट की प्रतिक्रिया आश्चर्यजनक थी। इसने डीप लर्निंग प्रगति का सटीक सारांश देते हुए कहा, "यह डेटा डीप लर्निंग आर्किटेक्चर और मॉडल स्केलिंग में तेजी से प्रगति को दर्शाता है, जो बड़े, अधिक शक्तिशाली मॉडल की ओर रुझान दिखाता है"। हमें GPT-4o से भी ऐसी ही प्रतिक्रिया मिली। इसलिए, यह समझने के लिए कि कौन सा बेहतर है, हमने चार कार्यों में व्यवस्थित रूप से दोनों मॉडलों की तुलना करना शुरू किया - कोडिंग, UI के साथ कोडिंग, तार्किक तर्क और गणित तर्क।

बनाम GPT-4o - कौन सा बेहतर है?

अब जबकि हमने एक सिंहावलोकन देख लिया है तो चलिए गहराई से गोता लगाते हैं और मॉडल को एक सवारी के लिए ले चलते हैं। आइए कोड जनरेशन, तार्किक तर्क और गणितीय तर्क के लिए परीक्षण करें।

कोड जनरेशन

कोड जनरेशन के लिए, मैं दोनों मॉडलों से सुडोकू गेम खेलने के लिए कोड जनरेट करने के लिए कहने जा रहा हूँ। मैंने दोनों मॉडलों को एक ही प्रॉम्प्ट के साथ प्रॉम्प्ट किया, “सुडोकू गेम खेलने के लिए पायथन कोड लिखें।” इस प्रॉम्प्ट के साथ, क्लाउड 3.5 और GPT-4o दोनों ही कोड जनरेट करते हैं जिसके साथ हम केवल कमांड प्रॉम्प्ट से ही इंटरैक्ट कर सकते हैं। यह अपेक्षित है क्योंकि हमने यह निर्दिष्ट नहीं किया कि UI कोड कैसे जनरेट किया जाए। कुछ प्रारंभिक अवलोकन:

  • दोनों मॉडल बग-मुक्त कोड तैयार करते हैं।
  • क्लाउड कठिनाई स्तर चुनने की सुविधा के साथ कोड बनाता है। लेकिन GPT-4o ऐसा नहीं करता!
  • कोड जनरेशन की गति के साथ, क्लाउड बिना किसी संदेह के GPT-4o को हरा देता है
  • GPT-4o अनावश्यक पैकेजों के साथ कोड उत्पन्न करता है

यूआई के साथ कोड जनरेशन

चूंकि कमांड प्रॉम्प्ट के साथ बातचीत करना हर किसी के बस की बात नहीं है, इसलिए मैं चाहता था कि मॉडल UI के साथ कोड जेनरेट करें। इसके लिए, मैंने प्रॉम्प्ट को संशोधित करके, “सुडोकू गेम खेलने के लिए कोड लिखें” कर दिया। इस बार, मैंने प्रॉम्प्ट से “पायथन” हटा दिया क्योंकि मुझे लगा कि यह केवल बैकएंड कोड बनाने के लिए प्रेरित करेगा। जैसा कि अपेक्षित था, क्लाउड 3.5 ने इस बार नीचे दिए अनुसार एक कार्यात्मक UI बनाया। हालाँकि UI पूरी तरह से मजबूत और आकर्षक नहीं था, लेकिन यह कार्यात्मक था।

लेकिन दुर्भाग्य से GPT-4o ने ऐसा UI नहीं बनाया। यह अभी भी एक इंटरैक्टिव कमांड प्रॉम्प्ट के साथ कोड जेनरेट करता है।

पहेली 1 — तार्किक तर्क

पहली पहेली के लिए मैंने निम्नलिखित प्रश्न पूछा:

जेन जिल से मिलने गई। जिल जेन के इकलौते पति की सास के इकलौते पति की इकलौती बेटी की इकलौती बेटी है। जेन का जिल से क्या रिश्ता है?

दोनों मॉडलों ने तर्क के चरणों का एक क्रम बनाया और प्रश्न का सही उत्तर दिया। इसलिए इस मामले में क्लाउड 3.5 और GPT-4o के बीच बराबरी होनी चाहिए।

पहेली 2 — तार्किक तर्क

दूसरी पहेली के लिए मैंने निम्नलिखित प्रश्न पूछा:

इनमें से कौन सा शब्द बाकी शब्दों से सबसे कम मिलता जुलता है। इस अंतर का स्वर, व्यंजन या शब्दांश से कोई लेना-देना नहीं है। अधिक, जोड़े, नक़्काशी, ज़िपर\

इसके लिए, दोनों मॉडल अलग-अलग उत्तरों के साथ आने के लिए अलग-अलग तार्किक तर्क चरणों के साथ आए। क्लाउड ने तर्क दिया कि जिपर एकमात्र ऐसा शब्द है जो संज्ञा और क्रिया दोनों के रूप में कार्य कर सकता है। लेकिन अन्य या तो केवल संज्ञा या विशेषण हैं। इसलिए, इसने उत्तर के रूप में जिपर की पहचान की। दूसरी ओर, GPT-4o ने MORE तर्क की पहचान की कि यह कोई ठोस वस्तु या किसी विशिष्ट प्रकार का व्यक्ति नहीं है।

यह सब इस ओर संकेत करता है कि हमें संकेत को और अधिक विशिष्ट बनाने की आवश्यकता है, जिससे इस मामले में बराबरी हो सके।

पहेली 3 — गणितीय तर्क

चलिए एक प्रसिद्ध दृश्य तर्क पहेली पर चलते हैं जिसे एक सूत्र द्वारा गणना की जा सकती है। इसलिए मैंने नीचे दिए गए चित्र के साथ नीचे दिए गए संकेत को दोनों मॉडलों के इनपुट के रूप में दिया।

नीचे दिए गए 3 वृत्तों की परिधि पर नीले बिंदु हैं जो सीधी रेखाओं से जुड़े हुए हैं। पहले वृत्त में दो नीले बिंदु हैं जो इसे दो क्षेत्रों में विभाजित करते हैं। एक वृत्त दिया गया है जिसकी परिधि पर कहीं भी 7 बिंदु हैं, वृत्त को अधिकतम कितने क्षेत्रों में विभाजित किया जा सकता है?

इस मामले में, GPT-4o ने 57 का बिल्कुल सही उत्तर दिया। लेकिन क्लाउड 3.5 ने 64 का उत्तर दिया जो कि बिल्कुल सही नहीं है। दोनों मॉडलों ने तार्किक तर्क के चरण दिए कि वे उत्तर पर क्यों पहुंचे। GPT-4o में गणित के सूत्रों का प्रारूप क्लाउड 3.5 की तुलना में बेहतर है।

हमारा फैसला

हमारे परीक्षणों के आधार पर, हम निष्कर्ष निकालते हैं कि कोड जनरेशन कार्यों में विजेता, चाहे वह शुद्ध-समर्थित कोड हो या GUI कोड, क्लाउड 3.5 सॉनेट है। यह तार्किक तर्क कार्यों के साथ एक करीबी मुकाबला है। लेकिन जब गणितीय तर्क कार्यों की बात आती है, तो GPT-4o अभी भी आगे है और क्लाउड को अभी भी पकड़ना बाकी है।

जनरेशन स्पीड के मामले में, क्लाउड निस्संदेह विजेता है क्योंकि यह GPT-4o की तुलना में बहुत तेज़ी से टेक्स्ट या कोड तैयार करता है। यदि आप वास्तविक समय में पाठ निर्माण की गति की तुलना करना चाहते हैं।

चिल्लाओ

अगर आपको यह लेख पसंद आया तो मुझे फॉलो क्यों न करें ट्विटर जहां मैं सप्ताह के हर एक दिन शीर्ष एआई प्रयोगशालाओं से अनुसंधान अपडेट साझा करता हूं?

कृपया मेरी सदस्यता भी लें यूट्यूब चैनल जहां मैं एआई अवधारणाओं और शोधपत्रों को दृश्यात्मक रूप से समझाता हूं।