क्लाउड सीरीज के मॉडल बनाने वाली कंपनी एंथ्रोपिक ने क्लाउड 3.5 सॉनेट जारी किया है। यह ऐसे समय में आया है जब हम सभी ने तर्क, सारांश आदि जैसे अधिकांश कार्यों के लिए GPT-4o को डिफ़ॉल्ट सर्वश्रेष्ठ मॉडल के रूप में स्वीकार कर लिया है। एंथ्रोपिक ने यह साहसिक दावा किया है कि उनका मॉडल बुद्धिमत्ता के लिए नया "उद्योग मानक" स्थापित करता है।
इसके अतिरिक्त, यदि आप इसे आज़माना चाहते हैं तो यह claude.ai पर निःशुल्क उपलब्ध है। इसलिए, हम उत्साहित हो गए और मॉडल का परीक्षण करना चाहते थे और इसकी तुलना GPT-4o से करना चाहते थे। यह लेख क्लाउड 3.5 के साथ जारी की गई सुविधाओं के अवलोकन से शुरू होता है और कोड जनरेशन के साथ-साथ तार्किक और गणितीय तर्क कार्यों पर GPT-4o के विरुद्ध इसका परीक्षण करता है।
यह मॉडल तीन मुख्य विशेषताओं या नवीनताओं के साथ आता है, जिनके आधार पर उनका दावा है कि यह अधिकांश कार्यों में GPT-4o को मात देता है।
आइए इसकी विशेषताओं पर गहराई से विचार करें और इनकी तुलना LLM के लंबे समय से राज कर रहे राजा GPT-4o से करें।
आरंभ करने के लिए हमें claude.ai वेबसाइट पर लॉग इन करना होगा और आर्टिफैक्ट्स सुविधा को सक्षम करना होगा। चूंकि यह एक प्रायोगिक सुविधा है, इसलिए हमें इसे सक्षम करना होगा। हमें फीचर पूर्वावलोकन के अंतर्गत जाना होगा और वहां से आर्टिफैक्ट्स को सक्षम करना होगा जैसा कि नीचे दिखाया गया है।
एक बार सक्षम होने के बाद, मॉडल कोडिंग या एनिमेशन जैसे आवश्यक कार्यों के लिए एक समर्पित विंडो दिखाएगा।
बेहतर दृश्य तर्क क्षमता का परीक्षण करने के लिए, हमने नीचे दिए गए दो प्लॉट को क्लाउड सॉनेट मॉडल पर अपलोड किया और सवाल पूछा, "आप इस डेटा से क्या समझ सकते हैं?"।
दृश्य तर्क के परीक्षण के लिए चित्र के रूप में प्लॉट
क्लाउड सॉनेट की प्रतिक्रिया आश्चर्यजनक थी। इसने डीप लर्निंग प्रगति का सटीक सारांश देते हुए कहा, "यह डेटा डीप लर्निंग आर्किटेक्चर और मॉडल स्केलिंग में तेजी से प्रगति को दर्शाता है, जो बड़े, अधिक शक्तिशाली मॉडल की ओर रुझान दिखाता है"। हमें GPT-4o से भी ऐसी ही प्रतिक्रिया मिली। इसलिए, यह समझने के लिए कि कौन सा बेहतर है, हमने चार कार्यों में व्यवस्थित रूप से दोनों मॉडलों की तुलना करना शुरू किया - कोडिंग, UI के साथ कोडिंग, तार्किक तर्क और गणित तर्क।
अब जबकि हमने एक सिंहावलोकन देख लिया है तो चलिए गहराई से गोता लगाते हैं और मॉडल को एक सवारी के लिए ले चलते हैं। आइए कोड जनरेशन, तार्किक तर्क और गणितीय तर्क के लिए परीक्षण करें।
कोड जनरेशन के लिए, मैं दोनों मॉडलों से सुडोकू गेम खेलने के लिए कोड जनरेट करने के लिए कहने जा रहा हूँ। मैंने दोनों मॉडलों को एक ही प्रॉम्प्ट के साथ प्रॉम्प्ट किया, “सुडोकू गेम खेलने के लिए पायथन कोड लिखें।” इस प्रॉम्प्ट के साथ, क्लाउड 3.5 और GPT-4o दोनों ही कोड जनरेट करते हैं जिसके साथ हम केवल कमांड प्रॉम्प्ट से ही इंटरैक्ट कर सकते हैं। यह अपेक्षित है क्योंकि हमने यह निर्दिष्ट नहीं किया कि UI कोड कैसे जनरेट किया जाए। कुछ प्रारंभिक अवलोकन:
चूंकि कमांड प्रॉम्प्ट के साथ बातचीत करना हर किसी के बस की बात नहीं है, इसलिए मैं चाहता था कि मॉडल UI के साथ कोड जेनरेट करें। इसके लिए, मैंने प्रॉम्प्ट को संशोधित करके, “सुडोकू गेम खेलने के लिए कोड लिखें” कर दिया। इस बार, मैंने प्रॉम्प्ट से “पायथन” हटा दिया क्योंकि मुझे लगा कि यह केवल बैकएंड कोड बनाने के लिए प्रेरित करेगा। जैसा कि अपेक्षित था, क्लाउड 3.5 ने इस बार नीचे दिए अनुसार एक कार्यात्मक UI बनाया। हालाँकि UI पूरी तरह से मजबूत और आकर्षक नहीं था, लेकिन यह कार्यात्मक था।
लेकिन दुर्भाग्य से GPT-4o ने ऐसा UI नहीं बनाया। यह अभी भी एक इंटरैक्टिव कमांड प्रॉम्प्ट के साथ कोड जेनरेट करता है।
पहली पहेली के लिए मैंने निम्नलिखित प्रश्न पूछा:
जेन जिल से मिलने गई। जिल जेन के इकलौते पति की सास के इकलौते पति की इकलौती बेटी की इकलौती बेटी है। जेन का जिल से क्या रिश्ता है?
दोनों मॉडलों ने तर्क के चरणों का एक क्रम बनाया और प्रश्न का सही उत्तर दिया। इसलिए इस मामले में क्लाउड 3.5 और GPT-4o के बीच बराबरी होनी चाहिए।
दूसरी पहेली के लिए मैंने निम्नलिखित प्रश्न पूछा:
इनमें से कौन सा शब्द बाकी शब्दों से सबसे कम मिलता जुलता है। इस अंतर का स्वर, व्यंजन या शब्दांश से कोई लेना-देना नहीं है। अधिक, जोड़े, नक़्काशी, ज़िपर\
इसके लिए, दोनों मॉडल अलग-अलग उत्तरों के साथ आने के लिए अलग-अलग तार्किक तर्क चरणों के साथ आए। क्लाउड ने तर्क दिया कि जिपर एकमात्र ऐसा शब्द है जो संज्ञा और क्रिया दोनों के रूप में कार्य कर सकता है। लेकिन अन्य या तो केवल संज्ञा या विशेषण हैं। इसलिए, इसने उत्तर के रूप में जिपर की पहचान की। दूसरी ओर, GPT-4o ने MORE तर्क की पहचान की कि यह कोई ठोस वस्तु या किसी विशिष्ट प्रकार का व्यक्ति नहीं है।
यह सब इस ओर संकेत करता है कि हमें संकेत को और अधिक विशिष्ट बनाने की आवश्यकता है, जिससे इस मामले में बराबरी हो सके।
चलिए एक प्रसिद्ध दृश्य तर्क पहेली पर चलते हैं जिसे एक सूत्र द्वारा गणना की जा सकती है। इसलिए मैंने नीचे दिए गए चित्र के साथ नीचे दिए गए संकेत को दोनों मॉडलों के इनपुट के रूप में दिया।
नीचे दिए गए 3 वृत्तों की परिधि पर नीले बिंदु हैं जो सीधी रेखाओं से जुड़े हुए हैं। पहले वृत्त में दो नीले बिंदु हैं जो इसे दो क्षेत्रों में विभाजित करते हैं। एक वृत्त दिया गया है जिसकी परिधि पर कहीं भी 7 बिंदु हैं, वृत्त को अधिकतम कितने क्षेत्रों में विभाजित किया जा सकता है?
इस मामले में, GPT-4o ने 57 का बिल्कुल सही उत्तर दिया। लेकिन क्लाउड 3.5 ने 64 का उत्तर दिया जो कि बिल्कुल सही नहीं है। दोनों मॉडलों ने तार्किक तर्क के चरण दिए कि वे उत्तर पर क्यों पहुंचे। GPT-4o में गणित के सूत्रों का प्रारूप क्लाउड 3.5 की तुलना में बेहतर है।
हमारे परीक्षणों के आधार पर, हम निष्कर्ष निकालते हैं कि कोड जनरेशन कार्यों में विजेता, चाहे वह शुद्ध-समर्थित कोड हो या GUI कोड, क्लाउड 3.5 सॉनेट है। यह तार्किक तर्क कार्यों के साथ एक करीबी मुकाबला है। लेकिन जब गणितीय तर्क कार्यों की बात आती है, तो GPT-4o अभी भी आगे है और क्लाउड को अभी भी पकड़ना बाकी है।
जनरेशन स्पीड के मामले में, क्लाउड निस्संदेह विजेता है क्योंकि यह GPT-4o की तुलना में बहुत तेज़ी से टेक्स्ट या कोड तैयार करता है।
अगर आपको यह लेख पसंद आया तो मुझे फॉलो क्यों न करें
कृपया मेरी सदस्यता भी लें