प्रस्तुत है gptrim , एक निःशुल्क वेब ऐप जो GPT को संसाधित करने के लिए अधिकांश मूल जानकारी को संरक्षित करते हुए आपके संकेतों के आकार को 40%-60% तक कम कर देगा। gptrim भी एक पायथन लाइब्रेरी है।
अपने GPT प्रॉम्प्ट को gptrim में पेस्ट करें। ट्रिम किए गए टेक्स्ट को कॉपी करें और इसे GPT को दें।
ट्रिम किया गया टेक्स्ट अस्पष्ट जैसा दिखता है। लेकिन GPT इसे समझता है! 😁
यहां वह संकेत दिया गया है जिसका उपयोग आप संपीड़न गुणवत्ता की जांच के लिए कर सकते हैं:
This is an instance of compressed text. Rewrite it so that it has perfect grammar and is understandable by a human. Try to interpret it as faithfully as possible. Do not paraphrase or add anything to the text.
यदि आपने GPT के साथ खेला है, तो आप जानते हैं कि आप जो हासिल कर सकते हैं, उसकी सबसे बड़ी सीमा संदर्भ विंडो से आती है, यानी टोकन की कुल संख्या जिसे GPT एक बार में देख सकता है।
यहाँ इस लेख के समय चीजें कहाँ खड़ी हैं ( OpenAI सिंहावलोकन ):
संदर्भ विंडो का आकार टोकन में मापा जाता है। 1000 टोकन लगभग 750 शब्दों के अनुरूप हैं।
GPT-3.5 API में 4k टोकन या लगभग 6 वर्ड पेजों की एक संदर्भ विंडो है।
GPT-4 API के साथ आप 8k या 32k आकार की संदर्भ विंडो प्राप्त कर सकते हैं, यह इस बात पर निर्भर करता है कि आप कितना भुगतान करना चाहते हैं।
भले ही आप भुगतान करने को तैयार हों, GPT-4 API सीमित बीटा में है और अधिकांश लोग, जिनमें मैं शामिल हूं, इसे एक्सेस नहीं कर सकते। हे ओपनएआई, अभी भी उस आमंत्रण पर प्रतीक्षा कर रहा है।
जब आप API का उपयोग कर रहे होते हैं, तो प्रत्येक टोकन की कीमत आपको चुकानी पड़ती है।
आप मासिक शुल्क देकर ChatGPT में GPT-4 का अंतःक्रियात्मक रूप से उपयोग कर सकते हैं। दुर्भाग्य से, चैट संदेश केवल कुछ ही वर्णों में फिट हो सकते हैं। चैटजीपीटी और मैं दोनों कभी-कभी उस सीमा को पार कर जाते हैं और हमारे संदेश बाधित हो जाते हैं।
व्यवहार में, इससे उन अनुप्रयोगों को बनाना बहुत कठिन हो जाता है जो बड़ी मात्रा में पाठ पर काम करते हैं।
आपके संकेतों में टोकन कम करने का अर्थ है:
सामान्य तौर पर, कभी भी बहुत अधिक संदर्भ विंडो नहीं होती है। यहां तक कि अगर आप 32k के लिए भुगतान करने को तैयार हैं, तब भी आप और अधिक चाहते होंगे।
GPT को मानव भाषा की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है। दिन-प्रतिदिन के आधार पर, यह मानव भाषा की भविष्यवाणी करने में किसी भी इंसान की तुलना में कहीं बेहतर है। यदि आप इसे ऐसा पाठ देते हैं जो अत्यधिक संघनित और संकुचित है, तब भी यह इसे पढ़ने में सक्षम होगा।
रिक्त स्थान के उपयोग पर विचार करें। मनुष्य को शब्दों के बीच रिक्त स्थान की आवश्यकता होती है क्योंकि हमें पाठ को देखने की आवश्यकता होती है। लेकिन अगर मैं बिना स्पेस के लिखूं तो आप शायद अब भी मुझे समझ सकते हैं।
मेरा अनुमान है कि टेक्स्ट में 95% रिक्त स्थान सिर्फ आंखों पर पढ़ने को आसान बनाने के लिए हैं। जीपीटी परवाह नहीं है। आपके द्वारा हटाई गई हर जगह एक अतिरिक्त टोकन है जिसका उपयोग आप जानकारी देने के लिए कर सकते हैं।
क्या हम रिक्त स्थान को हटाने से बेहतर कर सकते हैं? बेशक, मैंने जीपीटी से पूछा। (मैं निराश था क्योंकि मैं इसे बड़े ब्लॉग पोस्ट को फीड करने की कोशिश कर रहा था और सीमा के विरुद्ध दौड़ता रहा।) यह एक पायथन फ़ंक्शन के साथ आया जो निम्न कार्य करता है:
पाठ को टोकन करता है
स्टॉपवर्ड हटाता है
पोर्टर स्टेमिंग एल्गोरिथम लागू करता है
कुछ सामान्य शब्दों को हटाता है: 'the', 'a', 'an', 'in', 'on', 'at', 'for', 'to', 'of'
सभी रिक्त स्थान हटाता है और शब्दों को एक साथ मिलाता है
आप यहां कोड पढ़ सकते हैं। यह बहुत सरल है! यह मानक एनएलपी प्रीप्रोसेसिंग सामान है। लेकिन मैंने अभी तक किसी को इस उद्देश्य के लिए इसका इस्तेमाल करते नहीं देखा है।
कुछ हफ़्ते पहले ट्विटर ने "शोगगोथ टंग" की खोज की । आप GPT को एक विशिष्ट भाषा में अत्यधिक संकुचित पाठ लिखने के लिए प्राप्त कर सकते हैं जिसे उसके स्वयं के उदाहरण समझ सकते हैं। यह अत्यंत आकर्षक है। हालाँकि, यह पैसे बचाने के तरीके के रूप में प्रभावी नहीं है। जीपीटी, क्योंकि आपको अभी भी संपीड़न के लिए जीपीटी का उपयोग करने की आवश्यकता है।
gptrim को पाठ को संपीड़ित करने के लिए GPT की आवश्यकता नहीं है, जो इसे त्वरित और निःशुल्क बनाता है।
gptrim आपके संकेतों को फिर से लिखता है जिससे वे ~50% छोटे हो जाते हैं। आप बस संक्षिप्त संकेत को ChatGPT में पेस्ट कर सकते हैं या इसे अपने API में फीड कर सकते हैं। GPT तब आपके निर्देशों का पालन करेगा। किसी विशेष व्याख्या की आवश्यकता नहीं है। GPT को आपके टेक्स्ट में कुछ भी अजीब नहीं दिखाई देगा!
मैंने इसका व्यापक परीक्षण नहीं किया है। मैंने जो देखा है, उससे GPT अधिकांश मूल अर्थ को पुनः प्राप्त कर सकता है। यह GPT-3.5 के लिए भी सही है।
संपीड़न गुणवत्ता को सत्यापित करने का सबसे अच्छा तरीका है कि GPT को टेक्स्ट को डीकंप्रेस करने के लिए कहें। मैंने लेख के शीर्ष पर इसके लिए एक संकेत साझा किया है।
संपीड़न सही नहीं है। कुछ वाक्यों के लिए, अर्थ खो जाता है या गलत व्याख्या की जाती है। मैं उन अनुप्रयोगों के लिए इसका उपयोग करने की अनुशंसा नहीं करता जहां अति सूक्ष्म अंतर महत्वपूर्ण है (उदाहरण के लिए चिकित्सा निदान)।
इस प्रोजेक्ट को एक साथ शाम को हैक कर लिया गया था। यह बहुत अधिक सहयोगी प्रयास था। मैं इस विचार के साथ आया, और GPT ने ट्रिमिंग फ़ंक्शन लिखा। फ्लास्क वेब ऐप लिखने के लिए इसने भारी काम भी किया।
इसमें कई सुधार जोड़े जा सकते हैं:
इसे प्रोग्रामेटिक रूप से करने के लिए एक पायथन लाइब्रेरी प्रकाशित करें।
GPT टोकन में बचत को मापें, वर्ण संख्या को नहीं।
OpenAI के मूल्य निर्धारण के आधार पर डॉलर की बचत की गणना करें।
और प्रयोग चलाएँ। क्या हम ट्रिम की गई भाषा में उत्तर देने के लिए जीपीटी प्राप्त कर सकते हैं, खुद को ट्रिम की गई भाषा में सोच सकते हैं, और केवल अंतिम चरण के रूप में टेक्स्ट को डिकम्प्रेस कर सकते हैं?
अंत में, GPT का उपयोग किए बिना , GPT के लिए टेक्स्ट को कंप्रेस करने के बेहतर तरीके होने चाहिए। मैं इस अंतरिक्ष में नए विचारों की प्रतीक्षा कर रहा हूं।
मुझे एआई के साथ सामान बनाना और उसके बारे में लिखना पसंद है। मुझे लिंक्डइन और ट्विटर पर खोजें।