16,420 रीडिंग

Gptrim: अपने GPT संकेत आकार को 50% तक कम करें निःशुल्क!

द्वारा Vlad Gheorghe4m2023/04/18

बहुत लंबा; पढ़ने के लिए

gptrim आपके संकेतों को 40-60% तक कम कर देता है। GPT को मानव भाषा की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है। यदि आप इसे ऐसा पाठ देते हैं जो अत्यधिक संघनित और संकुचित है, तब भी यह इसे पढ़ने में सक्षम होगा। आप जो हासिल कर सकते हैं, उसकी सबसे बड़ी सीमा संदर्भ विंडो से आती है, यानी टोकन की कुल संख्या जिसे GPT एक बार में देख सकता है। आपके संकेतों में टोकन कम करने का मतलब है कि आपके पास एक बड़ी संदर्भ विंडो हो सकती है। उसी काम को करने में आपका पैसा कम खर्च होगा।

featured image - Gptrim: अपने GPT संकेत आकार को 50% तक कम करें निःशुल्क!

प्रस्तुत है gptrim , एक निःशुल्क वेब ऐप जो GPT को संसाधित करने के लिए अधिकांश मूल जानकारी को संरक्षित करते हुए आपके संकेतों के आकार को 40%-60% तक कम कर देगा। gptrim भी एक पायथन लाइब्रेरी है।

यह काम किस प्रकार करता है

अपने GPT प्रॉम्प्ट को gptrim में पेस्ट करें। ट्रिम किए गए टेक्स्ट को कॉपी करें और इसे GPT को दें।

ट्रिम किया गया टेक्स्ट अस्पष्ट जैसा दिखता है। लेकिन GPT इसे समझता है! 😁

यहां वह संकेत दिया गया है जिसका उपयोग आप संपीड़न गुणवत्ता की जांच के लिए कर सकते हैं:

 This is an instance of compressed text. Rewrite it so that it has perfect grammar and is understandable by a human. Try to interpret it as faithfully as possible. Do not paraphrase or add anything to the text.

समस्या: संदर्भ विंडो बहुत छोटी है!

यदि आपने GPT के साथ खेला है, तो आप जानते हैं कि आप जो हासिल कर सकते हैं, उसकी सबसे बड़ी सीमा संदर्भ विंडो से आती है, यानी टोकन की कुल संख्या जिसे GPT एक बार में देख सकता है।

यहाँ इस लेख के समय चीजें कहाँ खड़ी हैं ( OpenAI सिंहावलोकन ):

संदर्भ विंडो का आकार टोकन में मापा जाता है। 1000 टोकन लगभग 750 शब्दों के अनुरूप हैं।
GPT-3.5 API में 4k टोकन या लगभग 6 वर्ड पेजों की एक संदर्भ विंडो है।
GPT-4 API के साथ आप 8k या 32k आकार की संदर्भ विंडो प्राप्त कर सकते हैं, यह इस बात पर निर्भर करता है कि आप कितना भुगतान करना चाहते हैं।
भले ही आप भुगतान करने को तैयार हों, GPT-4 API सीमित बीटा में है और अधिकांश लोग, जिनमें मैं शामिल हूं, इसे एक्सेस नहीं कर सकते। हे ओपनएआई, अभी भी उस आमंत्रण पर प्रतीक्षा कर रहा है।
जब आप API का उपयोग कर रहे होते हैं, तो प्रत्येक टोकन की कीमत आपको चुकानी पड़ती है।
आप मासिक शुल्क देकर ChatGPT में GPT-4 का अंतःक्रियात्मक रूप से उपयोग कर सकते हैं। दुर्भाग्य से, चैट संदेश केवल कुछ ही वर्णों में फिट हो सकते हैं। चैटजीपीटी और मैं दोनों कभी-कभी उस सीमा को पार कर जाते हैं और हमारे संदेश बाधित हो जाते हैं।

व्यवहार में, इससे उन अनुप्रयोगों को बनाना बहुत कठिन हो जाता है जो बड़ी मात्रा में पाठ पर काम करते हैं।

आपके संकेतों में टोकन कम करने का अर्थ है:

आपके पास एक बड़ी संदर्भ विंडो हो सकती है, कूलर चीजें बनाएं।
उसी काम को करने में आपका पैसा कम खर्च होगा।

सामान्य तौर पर, कभी भी बहुत अधिक संदर्भ विंडो नहीं होती है। यहां तक कि अगर आप 32k के लिए भुगतान करने को तैयार हैं, तब भी आप और अधिक चाहते होंगे।

समाधान: पठनीयता के बारे में भूल जाओ

GPT को मानव भाषा की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है। दिन-प्रतिदिन के आधार पर, यह मानव भाषा की भविष्यवाणी करने में किसी भी इंसान की तुलना में कहीं बेहतर है। यदि आप इसे ऐसा पाठ देते हैं जो अत्यधिक संघनित और संकुचित है, तब भी यह इसे पढ़ने में सक्षम होगा।

रिक्त स्थान के उपयोग पर विचार करें। मनुष्य को शब्दों के बीच रिक्त स्थान की आवश्यकता होती है क्योंकि हमें पाठ को देखने की आवश्यकता होती है। लेकिन अगर मैं बिना स्पेस के लिखूं तो आप शायद अब भी मुझे समझ सकते हैं।

मेरा अनुमान है कि टेक्स्ट में 95% रिक्त स्थान सिर्फ आंखों पर पढ़ने को आसान बनाने के लिए हैं। जीपीटी परवाह नहीं है। आपके द्वारा हटाई गई हर जगह एक अतिरिक्त टोकन है जिसका उपयोग आप जानकारी देने के लिए कर सकते हैं।

क्या हम रिक्त स्थान को हटाने से बेहतर कर सकते हैं? बेशक, मैंने जीपीटी से पूछा। (मैं निराश था क्योंकि मैं इसे बड़े ब्लॉग पोस्ट को फीड करने की कोशिश कर रहा था और सीमा के विरुद्ध दौड़ता रहा।) यह एक पायथन फ़ंक्शन के साथ आया जो निम्न कार्य करता है:

पाठ को टोकन करता है
स्टॉपवर्ड हटाता है
पोर्टर स्टेमिंग एल्गोरिथम लागू करता है
कुछ सामान्य शब्दों को हटाता है: 'the', 'a', 'an', 'in', 'on', 'at', 'for', 'to', 'of'
सभी रिक्त स्थान हटाता है और शब्दों को एक साथ मिलाता है

आप यहां कोड पढ़ सकते हैं। यह बहुत सरल है! यह मानक एनएलपी प्रीप्रोसेसिंग सामान है। लेकिन मैंने अभी तक किसी को इस उद्देश्य के लिए इसका इस्तेमाल करते नहीं देखा है।

कुछ हफ़्ते पहले ट्विटर ने "शोगगोथ टंग" की खोज की । आप GPT को एक विशिष्ट भाषा में अत्यधिक संकुचित पाठ लिखने के लिए प्राप्त कर सकते हैं जिसे उसके स्वयं के उदाहरण समझ सकते हैं। यह अत्यंत आकर्षक है। हालाँकि, यह पैसे बचाने के तरीके के रूप में प्रभावी नहीं है। जीपीटी, क्योंकि आपको अभी भी संपीड़न के लिए जीपीटी का उपयोग करने की आवश्यकता है।

gptrim को पाठ को संपीड़ित करने के लिए GPT की आवश्यकता नहीं है, जो इसे त्वरित और निःशुल्क बनाता है।

मैं इसका उपयोग कैसे कर सकता हूँ?

gptrim आपके संकेतों को फिर से लिखता है जिससे वे ~50% छोटे हो जाते हैं। आप बस संक्षिप्त संकेत को ChatGPT में पेस्ट कर सकते हैं या इसे अपने API में फीड कर सकते हैं। GPT तब आपके निर्देशों का पालन करेगा। किसी विशेष व्याख्या की आवश्यकता नहीं है। GPT को आपके टेक्स्ट में कुछ भी अजीब नहीं दिखाई देगा!

यह कितनी अच्छी तरह काम करता है?

मैंने इसका व्यापक परीक्षण नहीं किया है। मैंने जो देखा है, उससे GPT अधिकांश मूल अर्थ को पुनः प्राप्त कर सकता है। यह GPT-3.5 के लिए भी सही है।

संपीड़न गुणवत्ता को सत्यापित करने का सबसे अच्छा तरीका है कि GPT को टेक्स्ट को डीकंप्रेस करने के लिए कहें। मैंने लेख के शीर्ष पर इसके लिए एक संकेत साझा किया है।

संपीड़न सही नहीं है। कुछ वाक्यों के लिए, अर्थ खो जाता है या गलत व्याख्या की जाती है। मैं उन अनुप्रयोगों के लिए इसका उपयोग करने की अनुशंसा नहीं करता जहां अति सूक्ष्म अंतर महत्वपूर्ण है (उदाहरण के लिए चिकित्सा निदान)।

भविष्य के कदम

इस प्रोजेक्ट को एक साथ शाम को हैक कर लिया गया था। यह बहुत अधिक सहयोगी प्रयास था। मैं इस विचार के साथ आया, और GPT ने ट्रिमिंग फ़ंक्शन लिखा। फ्लास्क वेब ऐप लिखने के लिए इसने भारी काम भी किया।

इसमें कई सुधार जोड़े जा सकते हैं:

इसे प्रोग्रामेटिक रूप से करने के लिए एक पायथन लाइब्रेरी प्रकाशित करें।
GPT टोकन में बचत को मापें, वर्ण संख्या को नहीं।
OpenAI के मूल्य निर्धारण के आधार पर डॉलर की बचत की गणना करें।
और प्रयोग चलाएँ। क्या हम ट्रिम की गई भाषा में उत्तर देने के लिए जीपीटी प्राप्त कर सकते हैं, खुद को ट्रिम की गई भाषा में सोच सकते हैं, और केवल अंतिम चरण के रूप में टेक्स्ट को डिकम्प्रेस कर सकते हैं?

अंत में, GPT का उपयोग किए बिना , GPT के लिए टेक्स्ट को कंप्रेस करने के बेहतर तरीके होने चाहिए। मैं इस अंतरिक्ष में नए विचारों की प्रतीक्षा कर रहा हूं।