paint-brush
क्रोम में ए.आई. एम्बेडेड के साथ एक आवाज नियंत्रित वेबसाइटद्वारा@tyingshoelaces
345 रीडिंग
345 रीडिंग

क्रोम में ए.आई. एम्बेडेड के साथ एक आवाज नियंत्रित वेबसाइट

द्वारा tyingshoelaces.com12m2024/06/30
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

मुझे हाल ही में क्रोम बिल्ट-इन AI (प्रॉम्प्ट API) के लिए प्रारंभिक पूर्वावलोकन कार्यक्रम में आमंत्रित किया गया है। बिल्ट-इन AI, एम्बेडेड AI के लिए संभावित रूप से क्रॉस-ब्राउज़र मानक बनने के लिए खोजपूर्ण कार्य है। यह डिवाइस पर जेमिनी नैनो का लाभ उठाता है; इसका मतलब है कि यह आपके वेब ब्राउज़र में बंडल किया गया है और LLM जनरेशन आपके स्थानीय ब्राउज़र वातावरण में होता है।
featured image - क्रोम में ए.आई. एम्बेडेड के साथ एक आवाज नियंत्रित वेबसाइट
tyingshoelaces.com HackerNoon profile picture
0-item

परिचय

प्रारंभिक पूर्वावलोकन क्रोम प्रॉम्प्ट एपीआई.


मुझे हाल ही में क्रोम बिल्ट-इन AI (प्रॉम्प्ट API) के लिए प्रारंभिक पूर्वावलोकन कार्यक्रम में आमंत्रित किया गया है। बिल्ट-इन AI, एम्बेडेड AI के लिए संभावित रूप से क्रॉस-ब्राउज़र मानक बनने के लिए खोजपूर्ण कार्य है। यह डिवाइस पर जेमिनी नैनो का लाभ उठाता है जिसका अर्थ है कि यह आपके वेब ब्राउज़र में बंडल किया गया है और LLM जनरेशन आपके स्थानीय ब्राउज़र वातावरण में होता है।

फ़ायदे

अच्छा, आसान, तेज़ और मुफ़्त।


हमारे ब्राउज़र के लिए एम्बेडेड AI की चाहत रखने के तीन मुख्य कारण हैं। गति, लागत और उपयोगिता। मूल ब्राउज़र API के रूप में, इसका उपयोग करना आसान है। प्रॉम्प्ट API तक पहुँचना कोड की इन दो पंक्तियों जितना ही सरल है।


 const session = await window.ai.createTextSession(); const result = await session.prompt( "Tyingshoelaces.com are writing a really cool blog about you. What do you think about that then?" );


ब्राउज़र में जहाँ हमें उनकी आवश्यकता होती है, वहाँ जेनरेटिव AI परिणाम प्राप्त करना इससे आसान नहीं हो सकता। मैंने निष्पादन समय की जाँच करने के लिए कुछ परीक्षण किए। हालाँकि मुझे निराशा हुई कि हम एक ही सत्र (कोई समवर्तीता नहीं) तक सीमित थे, जटिल लंबे पाठ निर्माण के लिए प्रदर्शन अच्छा था।


याद रखें, इसमें कोई विलंब नहीं है, इसलिए निष्पादन समय वस्तुतः उस मिलीसेकंड से लेकर, जब हमने ब्राउज़र में अनुरोध किया था, हमारे कोड में परिणाम के उपयोग तक का समय है।


 VM975:32 Execution Time 1: 0h 0m 3s 47ms VM975:32 Execution Time 2: 0h 0m 3s 870ms VM975:32 Execution Time 3: 0h 0m 2s 355ms VM975:32 Execution Time 4: 0h 0m 3s 176ms VM975:32 Execution Time 5: 0h 0m 7s 103ms VM975:44 Average Session Execution Time: 0h 0m 3s 910.1999999999998ms );


लंबे टेक्स्ट जनरेशन प्रॉम्प्ट के लिए बिल्ट-इन AI के लिए 5 चेन किए गए अनुरोधों के लिए औसत निष्पादन समय प्रति पूर्ण अनुरोध 3-4 सेकंड के बीच है। मैंने इसे कई बार चलाया (स्क्रिप्ट GitHub रेपो में शामिल है), और हालाँकि यह डिवाइस के अनुसार अलग-अलग होता है, मुझे उम्मीद है कि API के ऑप्टिमाइज़ होने पर इसमें सुधार होगा। मैंने देखा है कि छोटे JSON जनरेशन कार्य बहुत तेज़ होते हैं (200-400ms)।


यह अधिकांश उपयोग मामलों के लिए स्वीकार्य से अधिक है। हमने अपने LLM के लिए पैमाने के मुद्दे को भी क्राउडसोर्स किया है। जहां औद्योगिक पैमाने पर API का उपयोग बेहद महंगा है, वहीं हर LLM अनुरोध को प्रायोगिक ब्राउज़र API के माध्यम से संभाला जाता है। यह वास्तव में अच्छा लगता है और संभावनाओं की दुनिया खोलता है।


क्रोम उपयोगकर्ताओं को अपने ब्राउज़र में मॉडल एम्बेड करने से, हमारे पास उपयोग के बिंदु पर प्रीलोडेड जनरेटिव एआई मॉडल के साथ एक वितरण तंत्र है और बड़े सर्वर की आवश्यकता नहीं है। यह WebLLM के समान है, लेकिन एक महत्वपूर्ण लाभ यह है कि मॉडल हमारे ब्राउज़र में पहले से लोड और बंडल किए गए हैं।


इसका अर्थ यह है कि हम 'इंटरनेट' पर उपयोग के लिए एक ही मॉडल डाउनलोड कर सकते हैं, बजाय इसके कि हमें विक्रेता-विशिष्ट मॉडल डाउनलोड करने के लिए बाध्य किया जाए।


इस प्रायोगिक ब्राउज़र एपीआई के बड़े सकारात्मक पक्ष यह हैं कि इसे अपनाने के लिए मजबूत तर्क दिए गए हैं; यह तेज़ है, यह मुफ़्त है (या उपभोक्ता द्वारा भुगतान किया जाता है), और उपयोग में बहुत आसान है।


लेकिन इसमें क्या समझौता है?

लागत

तेज़ और मुफ़्त। लेकिन इसकी कीमत क्या है?


API बिना किसी शर्म के केवल प्रयोग के लिए तैयार है, उत्पादन उपयोग के लिए नहीं। परिणामस्वरूप, बहुत सारा आउटपुट उससे कम परिष्कृत है जिसकी हम अधिक परिपक्व और होस्ट किए गए मॉडल से अपेक्षा करते हैं। मॉडल की सामान्य प्रकृति के साथ-साथ आकार की सीमाओं का मतलब है कि हमारे पास परिष्कृत आउटपुट नहीं है।


इससे निराशा होती है जो हमें जेनरेटिव AI API के शुरुआती दिनों में वापस ले जाती है। मैंने पाया कि विश्वसनीय JSON प्रतिक्रियाएँ प्राप्त करने के लिए मुझे बहुत सारे प्रॉम्प्ट इंजीनियरिंग और सत्यापन तर्क का उपयोग करना पड़ा। हर कुछ अनुरोधों पर, API गैर-प्रतिक्रियाशील प्रतीत होता है, प्रतिक्रिया को भ्रमित करना काफी आसान है, जिस स्थिति में मॉडल विफल हो जाता है।


इस तथ्य का भी उल्लेख किया गया है कि चूंकि यह मॉडल ब्राउज़र में एम्बेडेड है; यह 'निजी' मॉडल होने के नाते कुछ मूल्य खोलता है। मुझे यकीन नहीं है कि यह अधिकांश उपयोग के मामलों के लिए प्रासंगिक है, क्योंकि सार्वजनिक-सामना करने वाली वेबसाइटें अभी भी अपने सर्वर के साथ बातचीत कर रही होंगी, और औसत उपयोगकर्ता के लिए, यह सुनिश्चित करना कठिन है कि डेटा कभी भी स्थानीय वातावरण से बाहर नहीं जा रहा है। ऐसा कहने के बाद, आंतरिक उपयोग और गैर-सार्वजनिक सामना करने वाली प्रणालियों के लिए जो ब्राउज़र (उदाहरण के लिए कॉर्पोरेट वातावरण) के माध्यम से संचालित होती हैं, यह एक बोनस बिंदु हो सकता है।


छोटे मॉडल के कारण प्रतिक्रियाओं में परिष्कार की कमी का मतलब है कि हमें उन कार्यों के बारे में बहुत सावधान रहना होगा जिनके लिए हम इसका उपयोग करते हैं। भविष्य की वास्तुकलाएँ सही कार्य के लिए सही वजन (और इसलिए, लागत) का उपयोग करने के लिए अपने जनरेटिव AI कार्यान्वयन को अनुकूलित करेंगी। मैं कई छोटे, अत्यधिक ट्यून किए गए और कार्य-उन्मुख LLM की कल्पना करता हूँ, जिनमें से प्रत्येक का उपयोग एक विशिष्ट आउटपुट के लिए किया जाता है।


ऐसा कहने के बाद, सब कुछ क्षम्य है, विशेषकर इसलिए क्योंकि API को स्पष्ट रूप से प्रयोग के लिए डिज़ाइन किया गया है, न कि उत्पादन उपयोग के लिए।


अच्छा
-लागत
-पैमाना
-रफ़्तार
- प्रयोज्यता
-निजी

बुरा
-गुणवत्ता में बलिदान
-कार्यान्वयन लागत

उदाहरण के लिए, अगर हम समसामयिक मामलों का गहन विश्लेषण करना चाहते हैं, तो हमें आउटपुट को सूचित करने के लिए एक बड़ी संदर्भ विंडो और परिष्कृत RAG प्रवाह की आवश्यकता होगी; एम्बेडेड AI लगभग निश्चित रूप से सही दृष्टिकोण नहीं है। Google अपने संसाधनों में इसका संकेत देता है।


लेकिन मेरे पास एक सिद्धांत है जिसे मैं परीक्षण के लिए रखना चाहता था; एक मूर्खतापूर्ण, पागलपन भरा और बेहद मज़ेदार सिद्धांत; और माइक्रो ब्राउज़र होस्टेड एलएलएम ऐसा करने के लिए एकदम सही जगह थी।

सोचने का एक नया तरीका

न्यूरॉन्स, मस्तिष्क नहीं


मैं कुछ समय से एक छोटी सी खुजली को खुजलाना चाहता था। क्या होगा अगर हम LLM का गलत इस्तेमाल कर रहे हैं? वास्तव में, क्या होगा अगर हमने वैचारिक मॉडल को गलत बना दिया है?


जैसे-जैसे हम प्रशिक्षण डेटा के विस्तार के साथ हमेशा बड़ी संदर्भ विंडो के लिए दौड़ रहे हैं, हम जेनरेटिव एआई को लंबवत रूप से स्केल करने की कोशिश कर रहे हैं। बड़ा, मजबूत, तेज, बेहतर। जब मैं लोगों को पूरे इंटरनेट को प्लग करने के लिए पर्याप्त बड़ी संदर्भ विंडो के लिए दयालुता से पूछते हुए देखता हूं, तो मेरा मुंह खुला का खुला रह जाता है, और फिर बीच में एल्गोरिदम से पूछता हूं कि कृपया इस विशाल झील से ठीक वही जानकारी और आउटपुट चुनें जो हम चाहते हैं। और तेज़।


हम LLM में प्रत्येक इनपुट को API के रूप में देखते हैं, टेक्स्ट अंदर जाता है, जादू होता है, और टेक्स्ट बाहर आता है। बीच में मौजूद इस जादू को हम बुद्धिमत्ता कहते हैं। जितना ज़्यादा टेक्स्ट होगा, जादू उतना ही तेज़ होगा और परिणाम उतना ही बेहतर होगा। यह हमारा वर्तमान आगे का रास्ता है।


मैं यह सोचने से खुद को रोक नहीं पा रहा हूं कि क्या हम गलत पैमाने या ज़ूम पर ध्यान केंद्रित कर रहे हैं, जो संज्ञान की गलत व्याख्या है।


सामान्य रूप से सोचने की बात, विशेष रूप से रचनात्मक आउटपुट (जो वास्तव में टेक्स्ट जनरेशन है), यह है कि यह इतनी सरल प्रक्रिया नहीं है। यह एक एकल धागा नहीं है। हम इसे पहले से ही नए मॉडलों में देख रहे हैं; उदाहरण के लिए क्लाउड 3.5 सॉनेट सिस्टम प्रॉम्प्ट के मेरे विश्लेषण में, हम देखते हैं कि एलएलएम आउटपुट में हाल ही में हुई कई प्रगति शायद एल्गोरिदम से संबंधित नहीं हैं, बल्कि बुनियादी ढांचे, सिस्टम और ट्यूनिंग से संबंधित हैं जो आउटपुट को संदर्भ के अनुसार निर्देशित करते हैं।


मैं छोटे, तेज़ कनेक्शनों को एक साथ जोड़कर कुछ बड़ा बनाने की अवधारणा को आजमाना चाहता था। अंत में, 100k की संदर्भ विंडो 1k - 100 गुना के बराबर है। मुझे संदेह है कि भले ही हम भव्यता पर ध्यान केंद्रित कर रहे हों, लेकिन कुंजी छोटे और सटीक विवरणों में है जो एक साथ मिलकर कुछ बड़ा बनाते हैं। यह मेरी बुद्धिमत्ता के मानसिक प्रतिमान के साथ एक संवेदनशील मशीन 'मस्तिष्क' से कहीं ज़्यादा फिट बैठता है।


सामान्य तौर पर मॉडल की सापेक्ष अक्षमता और निषेधात्मक लागत के कारण अब तक यह संभव नहीं हो पाया है। कल्पना करें कि अकाउंट्स में बॉब को हम बताते हैं कि हम चैटजीपीटी के लिए अनुरोधों की संख्या को 100 गुना करने जा रहे हैं क्योंकि हम यह मानते हैं कि मेश आर्किटेक्चर में माइक्रोट्रांजैक्शन हमारे एआई सिस्टम की गुणवत्ता में सुधार करेंगे। मुझे नहीं लगता कि बॉब ओपनएआई में काम करता है, लेकिन हममें से बाकी लोगों के लिए, यह संभव नहीं है।


ब्राउज़र में एक छोटा और कुशल एम्बेडेड मॉडल भी वास्तव में मेरे सिद्धांतों को संभालने के लिए तैयार नहीं है। यह काफी तेज़ नहीं है और समवर्ती अनुरोधों (समवर्ती विचार!) को सक्षम नहीं करता है, लेकिन यह सही दिशा में एक कदम है, और हम प्रत्येक अनुरोध के लिए भारी शुल्क वसूलने वाले क्लाउड-होस्टेड API से बहुत आगे आ गए हैं। मैं कार्यात्मक वास्तुकला नहीं देख सकता, लेकिन मैं इसके लिए रास्ता देख सकता हूँ।


इस सिद्धांत का परीक्षण करने के लिए, मैंने अपने प्रोग्रामिंग दस्ताने उतारे, एक ब्राउज़र खोला, और 1000 मल्टीथ्रेडेड अनुरोधों के साथ एक मेष वास्तुकला की अपनी महाकाव्य यात्रा शुरू की।


परिणाम जादुई थे।

आपका दिमाग, उनका नहीं

मस्तिष्क स्थानीय होता है, इसलिए हमारे API भी स्थानीय होने चाहिए।


मुझे आवाज़ बहुत पसंद है। मुझे लगता है कि कीबोर्ड और माउस हमारे बंदर दिमाग का विस्तार बन गए हैं, लेकिन वे मानवीय उपकरण हैं और इसलिए एक इंटरफ़ेस के रूप में अधिक समग्र रूप से सीमित हैं। जैसे-जैसे तकनीक आगे बढ़ेगी, वैसे-वैसे इंटरफ़ेस भी आगे बढ़ेंगे, और कुछ बिंदु पर, कीबोर्ड, माउस और यहां तक कि स्क्रीन भी हमारे पूर्वजों के लिए उतने ही अप्रचलित हो जाएंगे, जितने तेल के दीपक और कबूतर हमारे लिए हैं।


इसलिए, मैं जो भी बनाना चाहता था, उसे आवाज़ से नियंत्रित होना था। सौभाग्य से, इसके लिए एक ब्राउज़र API है।


  1. स्पीच रिकॉग्निशन एपीआई (स्पीच टू टेक्स्ट के साथ)
  2. एसटीटी एपीआई
  3. प्रॉम्प्ट एपीआई
  4. इंटरनेट (ब्राउज़र के माध्यम से एक्सेस किया गया)


मैं जो बनाना चाहता था वह एक ब्राउज़र-नियंत्रित वॉयस इंटरेक्शन डेमो था। एक बुद्धिमान वेबसाइट जो ब्राउज़र संदर्भ और इनपुट के आधार पर नेविगेट करती है, प्रतिक्रिया देती है और बदलती है, वह भी मेरी आवाज़ के अलावा किसी और चीज़ का उपयोग किए बिना। कोई कीबोर्ड नहीं। कोई माउस नहीं। " मैं, मेरी आवाज़, एक ब्राउज़र और प्रॉम्प्ट एपीआई। " यह सबसे खराब बच्चों की कहानी लगती है जो मैंने कभी सुनी है। मैंने शायद इससे भी बदतर लिखा है।


वैचारिक रूप से, रैबिट डिवाइस या ह्यूमेन एआई पिन के समान। ये दोनों ही महत्वाकांक्षी उद्यम हैं, लेकिन इनमें एक समस्या यह है कि वे 'एआई ओएस' बनाने की कोशिश कर रहे हैं। सॉफ़्टवेयर में एक नया एआई-संचालित इंटरफ़ेस। मुझे लक्ष्य बहुत बड़ा लगता है, मूल रूप से एआई के छिड़काव के साथ इंटरनेट में एक नया इंटरफ़ेस बनाने की कोशिश की जा रही है।


नवाचार पुनरावृत्ति के बारे में है, और 2024 में इंटरनेट सर्वव्यापी है और ब्राउज़र के साथ मौलिक रूप से जुड़ा हुआ है। मानव-अनुकूल AI OS इंटरफ़ेस का आविष्कार करने का प्रयास इंटरनेट को फिर से आविष्कार करने के प्रयास के समान ही है। लोग पहले से ही पूछ रहे हैं, 'मैं ऐसा क्या कर सकता हूँ जो मैं अपने मोबाइल फ़ोन से पहले से नहीं कर सकता, लेकिन बेहतर कर सकता हूँ'...


नवाचार के लिए नए और अप्रमाणित का सम्मिश्रण आवश्यक है, लेकिन ठोस और सिद्ध नींव के साथ। बहुत अधिक अस्थिरता और परिणाम पागल वैज्ञानिक क्षेत्र होंगे, लेकिन सिद्ध और प्रयोगात्मक का संतुलन ठीक से बना रहे, और कभी-कभी, बस कभी-कभी, कुछ खास होता है।


ब्राउज़र AI प्रॉम्प्ट API के कार्य का स्क्रीनशॉट

संज्ञानात्मक प्रतिमान जो हमने अधिकांश एलएलएम उपयोग मामलों में गलत पाया है, वह यह है कि हम किसी जुड़ाव को हाथ मिलाने के रूप में देखते हैं। इनपुट ← एलएलएम → आउटपुट। इनपुट इन, आउटपुट आउट। हालाँकि, वास्तविक मानवीय अंतःक्रियाओं के साथ, हमारे पास बहुआयामी प्रक्रियाएँ होती हैं जिन्हें विभिन्न विचारों और क्रियाओं में विभाजित किया जा सकता है।



स्टोर अटेंडेंट ग्राहक का अभिवादन करता है ->

[विचार]

वे क्या पहनते हैं, उनकी शैली उनके खरीद पैटर्न को कैसे प्रभावित करती है

उनकी जनसांख्यिकी क्या है, उनकी आयु उनके खरीद पैटर्न को कैसे प्रभावित करती है

लिंग उनके खरीद पैटर्न को कैसे प्रभावित करेगा

वे किस प्रकार के मूड/सामाजिक संकेत दे रहे हैं

उन्होंने वास्तव में ऐसा क्या कहा है जो उनके चयन को प्रभावित करेगा

[कार्रवाई]

सुप्रभात सर, आप कैसे हैं?



ग्राहक ने परिचारक का अभिवादन किया ->

[विचार]

जल्दी करो, मैं व्यस्त हूँ

आशा है कि उनके पास वह होगा जो मैं चाहता हूँ (मेरे मन को पढ़कर!)

क्या वे रिटर्न स्वीकार करेंगे?

[कार्रवाई]

सुप्रभात, मैं एक जोड़ी जूते ढूंढ रहा हूं।


हम कंप्यूटर विज्ञान में इतने गहरे उतर गए हैं कि इस अनुशासन के बारे में हमारी विचार प्रक्रियाएँ बाइनरी हो गई हैं। हम इनपुट और आउटपुट, सत्य और असत्य के बारे में सोचते हैं। सच्चाई यह है कि मानवीय संपर्क और विचार जटिल और सूक्ष्म हैं, हम बाइनरी को कम या सरल नहीं कर सकते।


लेकिन हम जो कर सकते हैं, वह है इस अद्भुत प्रौद्योगिकी को नए और रचनात्मक तरीकों से जोड़ना, ताकि उन बाधाओं को तोड़ा जा सके जो आउटपुट को एकरूप बना रही हैं और इंटरनेट को घोल में बदल रही हैं।

एक के अनेक, अनेक में से एक

आइए जनरेशन एआई इंटरैक्शन को बहु-थ्रेडेड और सूक्ष्म बनाएं


प्रयोग के लिए मेरा प्रस्ताव सामाजिक और मानवीय अंतःक्रियाओं को प्रतिबिंबित करने के लिए अंतर्निहित AI का उपयोग करता है। आइए एक उदाहरण का उपयोग करें जिसे मैं अच्छी तरह से समझता हूँ; ई-कॉमर्स के लिए एक अनुशंसा एल्गोरिदम का निर्माण करना।


 Thread 1: Social Cues, sentiment analysis – How long has it taken for user to interact? – Is their browsing behavior aggressive, slow, calm, controlled – Have they arrived from particular source, or looking for something specific? Thread 2: Behavior Cues, interpretation user input – How have they begun the conversation? A greeting? – What tone are they using? Thread 3: User context, data we have about similar demographics and their preferences – What age group do they belong to? How does this influence preferences? – How do they identify? How does this influence preferences? Thread 4: Site context, data we have how other users are using the site and trends – What are the trending products?


इतने सारे डेटा पॉइंट्स की व्याख्या करने के लिए कोई सिल्वर बुलेट नहीं है, और कभी नहीं होगा। LLMs कोई प्लगइन नहीं हैं "सेंटिमेंट एनालाइज़र, एंटिटी क्लासिफायर, जैक ऑफ़ ऑल ट्रेड्स"। LLM जनरेटिव एल्गोरिदम हैं जो रचनात्मक और तार्किक रूप से इनपुट की व्याख्या कर सकते हैं। ध्यान दें कि थ्रेड्स में प्रत्येक संकेत आउटपुट नहीं हैं, वे प्रश्न हैं।


विचार और उत्पादक एआई को सूचित करने के लिए, हमें उत्तर देने की तुलना में कहीं अधिक प्रश्न पूछने की आवश्यकता है। हमें अपने सभी डेटा बिंदुओं को प्राप्त करने के तरीके के बारे में परिष्कृत होने की आवश्यकता है, और जिस तरह से हम उन्हें अपने एलएलएम में फीड करते हैं, उसे संरचित करना होगा। इसलिए, व्यवहार और सामाजिक संकेतों को एक उदाहरण के रूप में उपयोग करने के लिए, हमें निम्नलिखित करने की आवश्यकता होगी:


  1. भावनाओं का विश्लेषण
  2. ब्राउज़र व्यवहार बनाम साइट और वैश्विक औसत के लिए डेटा विश्लेषण
  3. अनुरोधों से रेफरल डेटा निकालें


यह सारा डेटा हमारे एलएलएम में जाने से बहुत पहले ही तैयार और संसाधित हो जाएगा। लेकिन, एक बार तैयार हो जाने पर, हम इस तरह के संकेत के साथ सूचित करने में मदद कर सकते हैं:



उपयोगकर्ता A एक वापसी करने वाला आगंतुक है जो थोड़ा परेशान होने के संकेत दिखा रहा है। जब आप उनके साथ व्यवहार करते हैं तो इसे याद रखें, उन्हें आश्वस्त करना सुनिश्चित करें कि हमारे पास एक रिटर्न सिस्टम है। [कार्रवाई]: हमारी रिटर्न नीति और लोकप्रिय उत्पादों के लिए लिंक।


एक विकल्प यह होगा:



उपयोगकर्ता B अधीरता के लक्षण दिखा रहा है और सीधे उत्पाद X की तलाश में आया है। उन्हें उत्पाद पृष्ठ पर ले जाएं और कार्ट में जोड़ने की पेशकश करें। [कार्रवाई]: सीधे पृष्ठ X पर जाएँ और उत्पाद को कार्ट में जोड़ें।


इस अर्थ में, एलएलएम हमारे एजेंट और दुभाषिए हैं, लेकिन लोग जो गलती कर रहे हैं वह यह है कि वे मानते हैं कि “एल्गोरिदम” ही गुणवत्तापूर्ण आउटपुट का समाधान है। वास्तविक एजेंटों की तरह, हमारा निर्णय केवल उतना ही विश्वसनीय है जितना डेटा और संकेत जो हमें उन्हें सूचित करने के लिए हैं। जितना आप उत्तर देते हैं, उससे अधिक प्रश्न पूछें।


यह एक अविभाज्य सामाजिक सत्य है और यही कारण है कि एलएलएम से हमारी वर्तमान अपेक्षाएँ इतनी बेमेल हैं और एजेंट कई लोगों को मोहभंग की गर्त में ले जा रहे हैं। बकवास अंदर, बकवास बाहर। इससे कोई फर्क नहीं पड़ता कि एल्गोरिदम कितना अच्छा है।


हमारे अनुशंसा एल्गोरिदम के लिए संकेतों के दो समूह प्राप्त करने के लिए, हमें विशेषज्ञ उपकरणों और एआई इंफ्रास्ट्रक्चर की एक सरणी पर भरोसा करने की आवश्यकता होगी जो ग्रह पर कुछ प्लेटफ़ॉर्म को छोड़कर सभी की क्षमताओं से परे है। लेकिन हम अपने एलएलएम को खिलाने वाले बुनियादी ढांचे में बारीकियों, धागों और परिष्कार का निर्माण करके पुनरावृत्ति करके वहां पहुंच सकते हैं।


और अब, वे ब्राउज़र में हैं; भविष्य कभी इतना निकट नहीं रहा।


ब्राउज़र AI प्रॉम्प्ट API के दूसरे भाग के कार्य का स्क्रीनशॉट

मैंने सामाजिक संकेतों और इनपुट का मज़ाक उड़ाने वाला एक सरल प्रोटोटाइप बनाया। थोड़ा सा उपयोगकर्ता डेटा डाला और फिर प्रॉम्प्ट एपीआई से विचारों और कार्यों के संयोजन के साथ मेरी आवाज़ का जवाब देने के लिए कहा। यह किसी ऐसी चीज़ की दृष्टि से ज़्यादा कुछ नहीं है जो 'काम' कर सकती है। लेकिन हमारे प्रॉम्प्ट एपीआई में बारीक, विस्तृत और नियंत्रित इनपुट प्रदान करके, हमें बुद्धिमान, विचारशील और नियंत्रित प्रतिक्रिया मिलती है। यह एक जाल बुनियादी ढांचे की दृष्टि है क्योंकि माइक्रो-थ्रेड गतिशील रूप से सीख सकते हैं, सुदृढ़ कर सकते हैं और एक दूसरे को सूचित कर सकते हैं।


यह अभी काम नहीं करेगा। लेकिन यह किसी दिन काम आ सकता है, और वॉयस इनपुट के साथ त्वरित इंजीनियरिंग जादुई लगती है। यह एक ऐसी मंजिल है जिसकी ओर जाने के लिए आपको गाड़ी चलानी चाहिए।

निष्कर्ष

भविष्य पहले से कहीं अधिक निकट है।


हम अभी भी एलएलएम के शुरुआती चरणों में हैं, और मेरा अनुमान है कि प्रगति अपेक्षा से धीमी होगी और एजीआई (किसी भी उचित परिभाषा के अनुसार) पीढ़ियों तक नहीं आएगी। लेकिन सड़क पर प्रत्येक कदम के साथ, अवसरों की एक दुनिया उभरती है। अत्यधिक कुशल, अच्छी तरह से सोचा और परिभाषित बुनियादी ढांचे का निर्माण हमारे एलएलएम से आउटपुट की गुणवत्ता में बड़े पैमाने पर सुधार करता है, चाहे मॉडल का आकार या एल्गोरिदम गुणवत्ता कुछ भी हो।


एलएलएम को ब्राउज़र में ले जाना एलएलएम को इंटरनेट पर ले जाने के समान ही समझा जा सकता है। यह सस्ता होगा, खेलने में आसान होगा, और प्रयोग करने और प्रयोग करने में भी आसान होगा। लोगों को छोटा सोचने, अधिक कुशलता से निर्माण करने और उनके समाधानों में गहराई और बारीकियों को जोड़ने के लिए मजबूर करना एक अच्छी बात है, इसलिए मैं 'माइक्रो' मॉडल के बारे में बहुत चिंतित भी नहीं हूँ। परिष्कार केवल उपकरण में ही नहीं बल्कि उपयोग में है, इसलिए यह एक बड़ी छलांग है।


मैंने अपना डेमो संलग्न किया है; यह एक अवधारणा के प्रमाण के रूप में एक फेंक-अवे कोड है, जो एक खोजपूर्ण एआई पर बनाया गया है जो केवल डेमो उद्देश्यों के लिए उपयुक्त है।


और यह कभी-कभी ही काम करता है।


फिर भी, यह भविष्य का एक अद्भुत दर्शन है।

लिंक

और अधिक संसाधनों।


गिटहब रेपो

मूलतः प्रकाशित


कृपया सबमिट करते समय यह CTA रखें:

क्या आप इनमें से कुछ सवालों के जवाब देने की कोशिश करना चाहेंगे? टेम्पलेट का लिंक है यहाँ क्या आप हमारे सभी लेखन प्रॉम्प्ट की सामग्री पढ़ने में रुचि रखते हैं? क्लिक करें यहाँ .