पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी) अब जनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) अनुप्रयोगों का   है। वेक्टर डेटाबेस से प्राप्त प्रासंगिक संदर्भ के साथ अपने एप्लिकेशन प्रॉम्प्ट को पूरक करने से नाटकीय रूप से सटीकता बढ़ सकती है और मतिभ्रम कम हो सकता है। इसका मतलब यह है कि वेक्टर खोज परिणामों में बढ़ती प्रासंगिकता का आपके RAG एप्लिकेशन की गुणवत्ता से सीधा संबंध है। एक मानक हिस्सा    भी आरएजी के लोकप्रिय और तेजी से प्रासंगिक बने रहने के दो कारण हैं: बड़े भाषा मॉडल (एलएलएम) अपनी संदर्भ विंडो बढ़ाने के बावजूद  एलएलएम प्रतिक्रिया समय और कीमत दोनों संदर्भ लंबाई के साथ रैखिक रूप से बढ़ते हैं।  एलएलएम अभी भी बड़े संदर्भों में   और   दोनों के साथ संघर्ष करते हैं। पुनर्प्राप्ति तर्क  लेकिन   कोई जादू की छड़ी नहीं है. विशेष रूप से, सबसे आम डिज़ाइन, सघन मार्ग पुनर्प्राप्ति (डीपीआर), एक एकल एम्बेडिंग वेक्टर के रूप में क्वेरी और मार्ग दोनों का प्रतिनिधित्व करता है और प्रासंगिकता स्कोर करने के लिए सीधी   उपयोग करता है। इसका मतलब यह है कि डीपीआर सभी प्रासंगिक खोज शब्दों को पहचानने के लिए प्रशिक्षण की व्यापकता वाले एम्बेडिंग मॉडल पर बहुत अधिक निर्भर करता है। RAG कोसाइन समानता का  दुर्भाग्य से, ऑफ-द-शेल्फ मॉडल नामों सहित असामान्य शब्दों के साथ संघर्ष करते हैं, जो आमतौर पर उनके प्रशिक्षण डेटा में नहीं होते हैं। डीपीआर भी चंकिंग रणनीति के प्रति अतिसंवेदनशील होता है, जिसके कारण यदि यह बहुत सारी अप्रासंगिक जानकारी से घिरा हो तो एक प्रासंगिक मार्ग छूट सकता है। यह सब एप्लिकेशन डेवलपर पर "पहली बार में इसे ठीक करने" का बोझ पैदा करता है, क्योंकि एक गलती के परिणामस्वरूप आमतौर पर इंडेक्स को नए सिरे से बनाने की आवश्यकता होती है।  कोलबर्ट के साथ डीपीआर की चुनौतियों का समाधान    ,   भाषा मॉडल का उपयोग करके गद्यांश प्रासंगिकता को स्कोर करने का एक नया तरीका है जो डीपीआर के साथ समस्याओं को काफी हद तक हल करता है।   का यह चित्र दिखाता है कि यह इतना रोमांचक क्यों है:  ColBERT BERT पहले कोलबर्ट पेपर  यह MS-MARCO डेटासेट के लिए अन्य अत्याधुनिक समाधानों के साथ ColBERT के प्रदर्शन की तुलना करता है। (एमएस-मार्को बिंग क्वेरीज़ का एक सेट है जिसके लिए   सबसे अधिक प्रासंगिक अंशों को हाथ से स्कोर किया है। यह बेहतर पुनर्प्राप्ति बेंचमार्क में से एक है।) नीचे और दाईं ओर बेहतर है। माइक्रोसॉफ्ट ने  संक्षेप में, कोलबर्ट विलंबता में थोड़ी सी वृद्धि की कीमत पर अधिकतर जटिल समाधानों के क्षेत्र में आसानी से बेहतर प्रदर्शन करता है।  इसका परीक्षण करने के लिए, मैंने   बनाया और ada002 DPR और ColBERT दोनों के साथ 1,000 से अधिक विकिपीडिया लेखों को अनुक्रमित किया। मैंने पाया कि कोलबर्ट असामान्य खोज शब्दों पर काफी बेहतर परिणाम देता है। एक डेमो  निम्नलिखित स्क्रीनशॉट से पता चलता है कि डीपीआर अब्राहम लिंकन के सहयोगी विलियम एच. हेरंडन के असामान्य नाम को पहचानने में विफल रहता है, जबकि कोलबर्ट को स्प्रिंगफील्ड लेख में संदर्भ मिलता है। यह भी ध्यान दें कि कोलबर्ट का नंबर 2 परिणाम एक अलग विलियम के लिए है, जबकि डीपीआर का कोई भी परिणाम प्रासंगिक नहीं है।    कोलबर्ट को अक्सर गहन मशीन लर्निंग शब्दजाल में वर्णित किया जाता है, लेकिन यह वास्तव में बहुत सीधा है। मैं दिखाऊंगा कि पायथन और   (सीक्यूएल) की केवल कुछ पंक्तियों के साथ   पर कोलबर्ट पुनर्प्राप्ति और स्कोरिंग को कैसे कार्यान्वित किया जाए। कैसेंड्रा क्वेरी लैंग्वेज डेटास्टैक्स एस्ट्रा डीबी  बड़ा विचार  पारंपरिक, एकल-वेक्टर-आधारित डीपीआर के बजाय जो अनुच्छेदों को एकल "एम्बेडिंग" वेक्टर में बदल देता है, कोलबर्ट अनुच्छेदों में प्रत्येक टोकन के लिए एक प्रासंगिक रूप से प्रभावित   उत्पन्न करता है। ColBERT इसी प्रकार क्वेरी में प्रत्येक टोकन के लिए वेक्टर उत्पन्न करता है। वेक्टर  (टोकनीकरण का तात्पर्य एलएलएम द्वारा प्रसंस्करण से पहले इनपुट को शब्दों के अंशों में विभाजित करना   ) है। ओपनएआई टीम के संस्थापक सदस्य आंद्रेज कारपैथी ने अभी एक उत्कृष्ट वीडियो जारी किया है कि यह कैसे काम करता है।  फिर, प्रत्येक दस्तावेज़ का स्कोर किसी भी दस्तावेज़ एम्बेडिंग में एम्बेड की गई प्रत्येक क्वेरी की अधिकतम समानता का योग है:   def maxsim(qv, document_embeddings): return max(qv @ dv for dv in document_embeddings) def score(query_embeddings, document_embeddings): return sum(maxsim(qv, document_embeddings) for qv in query_embeddings)  (@ डॉट उत्पाद के लिए PyTorch ऑपरेटर है और   है।) वेक्टर समानता का सबसे सामान्य माप  बस इतना ही - आप पायथन की चार पंक्तियों में कोलबर्ट स्कोरिंग लागू कर सकते हैं! अब आप कोलबर्ट को एक्स (पहले ट्विटर के नाम से जाना जाता था) पर इसके बारे में पोस्ट करने वाले 99% लोगों से बेहतर समझते हैं।  कोलबर्ट के शेष कागजात निम्नलिखित से संबंधित हैं:  किसी दिए गए डेटा सेट के लिए सर्वोत्तम एम्बेडिंग उत्पन्न करने के लिए आप BERT मॉडल को कैसे ठीक करते हैं?  आप दस्तावेज़ों के उस सेट को कैसे सीमित करते हैं जिसके लिए आप यहां दिखाए गए (अपेक्षाकृत महंगे) स्कोर की गणना करते हैं?  पहला प्रश्न वैकल्पिक है और इस आलेख के दायरे से बाहर है। मैं पूर्व-प्रशिक्षित कोलबर्ट चेकपॉइंट का उपयोग करूंगा। लेकिन दूसरा डेटास्टैक्स एस्ट्रा डीबी जैसे वेक्टर डेटाबेस के साथ करना सीधा है।  एस्ट्रा डीबी पर कोलबर्ट  कोलबर्ट के लिए   नामक एक लोकप्रिय पायथन ऑल-इन-वन लाइब्रेरी है; हालाँकि, यह एक स्थिर डेटासेट मानता है। RAG अनुप्रयोगों की शक्तिशाली विशेषताओं में से एक   पर प्रतिक्रिया देना है। इसलिए इसके बजाय, मैं प्रत्येक सबवेक्टर के लिए सर्वश्रेष्ठ उम्मीदवारों को स्कोर करने के लिए आवश्यक दस्तावेजों के सेट को सीमित करने के लिए एस्ट्रा के वेक्टर इंडेक्स का उपयोग करने जा रहा हूं। RAGatouille वास्तविक समय में गतिशील रूप से बदलते डेटा  RAG एप्लिकेशन में ColBERT जोड़ते समय दो चरण होते हैं: अंतर्ग्रहण और पुनर्प्राप्ति।  घूस  क्योंकि प्रत्येक दस्तावेज़ खंड के साथ कई एम्बेडिंग जुड़ी होंगी, मुझे दो तालिकाओं की आवश्यकता होगी:   CREATE TABLE chunks ( title text, part int, body text, PRIMARY KEY (title, part) ); CREATE TABLE colbert_embeddings ( title text, part int, embedding_id int, bert_embedding vector<float, 128>, PRIMARY KEY (title, part, embedding_id) ); CREATE INDEX colbert_ann ON colbert_embeddings(bert_embedding) WITH OPTIONS = { 'similarity_function': 'DOT_PRODUCT' };  कोलबर्ट लाइब्रेरी स्थापित करने (   ) और   डाउनलोड करने के बाद, मैं इन तालिकाओं में दस्तावेज़ लोड कर सकता हूं: pip install colbert-ai पूर्व-प्रशिक्षित बीईआरटी चेकपॉइंट   from colbert.infra.config import ColBERTConfig from colbert.modeling.checkpoint import Checkpoint from colbert.indexing.collection_encoder import CollectionEncoder from cassandra.concurrent import execute_concurrent_with_args from db import DB def encode_and_save(title, passages): db = DB() cf = ColBERTConfig(checkpoint='checkpoints/colbertv2.0') cp = Checkpoint(cf.checkpoint, colbert_config=cf) encoder = CollectionEncoder(cf, cp) # encode_passages returns a flat list of embeddings and a list of how many correspond to each passage embeddings_flat, counts = encoder.encode_passages(passages) # split up embeddings_flat into a nested list start_indices = [0] + list(itertools.accumulate(counts[:-1])) embeddings_by_part = [embeddings_flat[start:start+count] for start, count in zip(start_indices, counts)] # insert into the database for part, embeddings in enumerate(embeddings_by_part): execute_concurrent_with_args(db.session, db.insert_colbert_stmt, [(title, part, i, e) for i, e in enumerate(embeddings)])  (मैं अपने DB तर्क को एक समर्पित मॉड्यूल में समाहित करना पसंद करता हूं; आप मेरे   में पूर्ण स्रोत तक पहुंच सकते हैं।) GitHub रिपॉजिटरी  बहाली  फिर पुनर्प्राप्ति इस तरह दिखती है:   def retrieve_colbert(query): db = DB() cf = ColBERTConfig(checkpoint='checkpoints/colbertv2.0') cp = Checkpoint(cf.checkpoint, colbert_config=cf) encode = lambda q: cp.queryFromText([q])[0] query_encodings = encode(query) # find the most relevant documents for each query embedding. using a set # handles duplicates so we don't retrieve the same one more than once docparts = set() for qv in query_encodings: rows = db.session.execute(db.query_colbert_ann_stmt, [list(qv)]) docparts.update((row.title, row.part) for row in rows) # retrieve these relevant documents and score each one scores = {} for title, part in docparts: rows = db.session.execute(db.query_colbert_parts_stmt, [title, part]) embeddings_for_part = [tensor(row.bert_embedding) for row in rows] scores[(title, part)] = score(query_encodings, embeddings_for_part) # return the source chunk for the top 5 return sorted(scores, key=scores.get, reverse=True)[:5]  यहां सबसे प्रासंगिक-दस्तावेज़ भाग (   ) के लिए क्वेरी निष्पादित की जा रही है: db.query_colbert_ann_stmt   SELECT title, part FROM colbert_embeddings ORDER BY bert_embedding ANN OF ? LIMIT 5  बुनियादी बातों से परे: RAGStack  यह आलेख और लिंक किया गया भंडार संक्षेप में बताता है कि कोलबर्ट कैसे काम करता है। आप इसे आज ही अपने डेटा के साथ लागू कर सकते हैं और तत्काल परिणाम देख सकते हैं। एआई में हर चीज की तरह, सर्वोत्तम प्रथाएं प्रतिदिन बदल रही हैं, और नई तकनीकें लगातार उभर रही हैं।  अत्याधुनिक स्थिति के साथ तालमेल बनाए रखना आसान बनाने के लिए, डेटास्टैक्स इसे और अन्य संवर्द्धन को   में ला रहा है, जो हमारी उत्पादन-तैयार RAG लाइब्रेरी है, जो लैंगचेन और लामाइंडेक्स का लाभ उठा रही है। हमारा लक्ष्य डेवलपर्स को RAG अनुप्रयोगों के लिए एक सुसंगत लाइब्रेरी प्रदान करना है जो उन्हें नई कार्यक्षमता के चरण-अप के नियंत्रण में रखता है। तकनीकों और पुस्तकालयों में असंख्य परिवर्तनों के साथ तालमेल बिठाने के बजाय, आपके पास एक ही स्ट्रीम है, जिससे आप अपने एप्लिकेशन के निर्माण पर ध्यान केंद्रित कर सकते हैं। लैंगचेन और लामाइंडेक्स के लिए सर्वोत्तम प्रथाओं को शामिल करने के लिए आप आज RAGStack का उपयोग कर सकते हैं; कोलबर्ट जैसे अग्रिम आगामी रिलीज में रैगस्टैक में आएंगे। RAGStack   जोनाथन एलिस, डेटास्टैक्स द्वारा    भी दिखाई देता है. यहाँ

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

DataStax Astra DB is the vector database for getting GenAI apps into production, fast. Try it for free today!

DataStax

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

कैसे ColBERT डेवलपर्स को RAG की सीमाओं को पार करने में मदद करता है

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps