परिचय पोस्टग्रेएसक्यूएल, मोंगोडीबी या डायनेमोडीबी जैसे स्रोत सिस्टम से स्ट्रीमिंग डेटा को वास्तविक समय की खोज और विश्लेषण के लिए डाउनस्ट्रीम सिस्टम में प्रबंधित करना कई टीमों के लिए एक चुनौती है। डेटा के प्रवाह में अक्सर जटिल ईटीएल टूलिंग के साथ-साथ स्व-प्रबंधन एकीकरण शामिल होते हैं ताकि यह सुनिश्चित किया जा सके कि अपडेट और डिलीट सहित उच्च मात्रा में लेखन, सीपीयू को नुकसान न पहुंचाए या अंतिम एप्लिकेशन के प्रदर्शन को प्रभावित न करे। जैसी प्रणाली के लिए, के लिए इंजीनियरों को अंतर्निहित वास्तुकला का गहन ज्ञान होना चाहिए। इलास्टिकसर्च को लॉग एनालिटिक्स के लिए डिज़ाइन किया गया था जहाँ डेटा अक्सर नहीं बदलता है, जिससे लेन-देन संबंधी डेटा से निपटने में अतिरिक्त चुनौतियाँ आती हैं। इलास्टिकसर्च स्ट्रीमिंग डेटा को कुशलतापूर्वक ग्रहण करने दूसरी ओर, रॉकसेट एक क्लाउड-नेटिव डेटाबेस है, जो सिस्टम में डेटा प्राप्त करने के लिए आवश्यक बहुत सारे टूलिंग और ओवरहेड को हटा देता है। चूंकि रॉकसेट वास्तविक समय की खोज और विश्लेषण के लिए बनाया गया है, इसलिए इसे के लिए भी डिज़ाइन किया गया है, जिससे इन्सर्ट, अपडेट और डिलीट को प्रोसेस करने के लिए आवश्यक CPU की मात्रा कम हो जाती है। फ़ील्ड-स्तरीय परिवर्तनशीलता इस ब्लॉग में, हम तुलना करेंगे कि डेटा अंतर्ग्रहण को कैसे संभालते हैं, साथ ही वास्तविक समय विश्लेषण के लिए इन प्रणालियों का उपयोग करने के लिए व्यावहारिक तकनीकें भी प्रदान करेंगे। इलास्टिक्सर्च और रॉकसेट Elasticsearch इलास्टिकसर्च में डेटा अंतर्ग्रहण यद्यपि Elasticsearch में डेटा डालने के कई तरीके हैं, हम वास्तविक समय खोज और विश्लेषण के लिए तीन सामान्य तरीकों को शामिल करते हैं: Logstash JDBC इनपुट प्लगइन का उपयोग करके रिलेशनल डेटाबेस से Elasticsearch में डेटा इंजेस्ट करें Kafka Elasticsearch सर्विस सिंक कनेक्टर का उपयोग करके Kafka से Elasticsearch में डेटा प्राप्त करें REST API और क्लाइंट लाइब्रेरी का उपयोग करके एप्लिकेशन से सीधे Elasticsearch में डेटा डालें Logstash JDBC इनपुट प्लगइन का उपयोग PostgreSQL या MySQL जैसे रिलेशनल डेटाबेस से खोज और विश्लेषण के लिए Elasticsearch में डेटा लोड करने के लिए किया जा सकता है। Logstash JDBC इनपुट प्लगइन का उपयोग करके रिलेशनल डेटाबेस से Elasticsearch में डेटा डालें। लॉगस्टैश एक इवेंट प्रोसेसिंग पाइपलाइन है जो डेटा को एलास्टिकसर्च में भेजने से पहले उसे ग्रहण और रूपांतरित करती है। लॉगस्टैश एक प्रदान करता है जो PostgreSQL या MySQL जैसे रिलेशनल डेटाबेस को समय-समय पर इन्सर्ट और अपडेट के लिए पोल करता है। इस सेवा का उपयोग करने के लिए, आपके रिलेशनल डेटाबेस को टाइमस्टैम्प्ड रिकॉर्ड प्रदान करने की आवश्यकता होती है जिसे लॉगस्टैश द्वारा पढ़ा जा सकता है ताकि यह निर्धारित किया जा सके कि कौन से परिवर्तन हुए हैं। JDBC इनपुट प्लगइन यह अंतर्ग्रहण दृष्टिकोण सम्मिलन और अद्यतन के लिए अच्छी तरह से काम करता है, लेकिन विलोपन के लिए अतिरिक्त विचारों की आवश्यकता होती है। ऐसा इसलिए है क्योंकि लॉगस्टैश के लिए यह निर्धारित करना संभव नहीं है कि आपके OLTP डेटाबेस में क्या हटाया गया है। उपयोगकर्ता सॉफ्ट डिलीट को लागू करके इस सीमा को पार कर सकते हैं, जहां हटाए गए रिकॉर्ड पर एक ध्वज लागू किया जाता है और इसका उपयोग क्वेरी समय पर डेटा को फ़िल्टर करने के लिए किया जाता है। या, वे समय-समय पर अपने रिलेशनल डेटाबेस को स्कैन कर सकते हैं ताकि सबसे अद्यतित रिकॉर्ड तक पहुँच प्राप्त कर सकें और इलास्टिक्सर्च में डेटा को फिर से अनुक्रमित कर सकें। वास्तविक समय की खोज और विश्लेषण के लिए स्रोत सिस्टम से इलास्टिकसर्च में डेटा भेजने के लिए काफ्का जैसे इवेंट स्ट्रीमिंग प्लेटफॉर्म का उपयोग करना भी आम है। उपयोग करके काफ्का से इलास्टिकसर्च में डेटा प्राप्त करें। काफ्का इलास्टिकसर्च सिंक कनेक्टर का कॉनफ्लुएंट और इलास्टिक ने के रिलीज में भागीदारी की है, जो प्रबंधित कॉनफ्लुएंट काफ्का और इलास्टिक इलास्टिकसर्च दोनों पेशकशों का उपयोग करने वाली कंपनियों के लिए उपलब्ध है। कनेक्टर को अतिरिक्त टूलिंग, काफ्का कनेक्ट को स्थापित करने और प्रबंधित करने की आवश्यकता होती है। काफ्का इलास्टिकसर्च सर्विस सिंक कनेक्टर कनेक्टर का उपयोग करके, आप काफ़्का में प्रत्येक विषय को Elasticsearch में एकल इंडेक्स प्रकार में मैप कर सकते हैं। यदि डायनेमिक टाइपिंग को इंडेक्स प्रकार के रूप में उपयोग किया जाता है, तो Elasticsearch कुछ स्कीमा परिवर्तनों का समर्थन करता है जैसे फ़ील्ड जोड़ना, फ़ील्ड हटाना और प्रकार बदलना। काफ़्का का उपयोग करते समय आने वाली चुनौतियों में से एक चुनौती यह है कि जब आप एनालाइज़र, टोकनाइज़र या इंडेक्स किए गए फ़ील्ड को संशोधित करना चाहते हैं, तो आपको इलास्टिकसर्च में डेटा को फिर से इंडेक्स करने की आवश्यकता होती है। ऐसा इसलिए है क्योंकि मैपिंग को पहले से परिभाषित किए जाने के बाद बदला नहीं जा सकता है। डेटा का रीइंडेक्स करने के लिए, आपको मूल इंडेक्स और नए इंडेक्स में डबल राइट करना होगा, डेटा को मूल इंडेक्स से नए इंडेक्स में ले जाना होगा और फिर मूल कनेक्टर जॉब को रोकना होगा। यदि आप कॉनफ्लुएंट या इलास्टिक से प्रबंधित सेवाओं का उपयोग नहीं करते हैं, तो आप इलास्टिकसर्च को डेटा भेजने के लिए लॉगस्टैश के लिए उपयोग कर सकते हैं। ओपन-सोर्स काफ्का प्लगइन का Elasticsearch, आपके एप्लिकेशन से सीधे REST API के माध्यम से डेटा डालने के लिए Java, Javascript, Ruby, Go, Python और अन्य सहित का उपयोग करने की क्षमता प्रदान करता है। क्लाइंट लाइब्रेरी का उपयोग करने में चुनौतियों में से एक यह है कि इसे के साथ काम करने के लिए कॉन्फ़िगर किया जाना चाहिए, जब Elasticsearch इनजेस्ट लोड को संभालने में असमर्थ हो। कतारबद्धता प्रणाली के बिना, Elasticsearch में डेटा हानि की संभावना है। REST API और क्लाइंट लाइब्रेरी का उपयोग करके सीधे एप्लिकेशन से Elasticsearch में डेटा डालें समर्थित क्लाइंट लाइब्रेरी कतारबद्धता और बैक-प्रेशर Elasticsearch में अपडेट, इन्सर्ट और डिलीट इलास्टिकसर्च में एक है जिसका उपयोग अपडेट और डिलीट को प्रोसेस करने के लिए किया जा सकता है। अपडेट एपीआई नेटवर्क ट्रिप की संख्या और संस्करण संघर्षों की संभावना को कम करता है। अपडेट एपीआई इंडेक्स से मौजूदा दस्तावेज़ को पुनर्प्राप्त करता है, परिवर्तन को प्रोसेस करता है और फिर डेटा को फिर से इंडेक्स करता है। ऐसा कहा जाता है कि इलास्टिकसर्च इन-प्लेस अपडेट या डिलीट की पेशकश नहीं करता है। इसलिए, पूरे दस्तावेज़ को अभी भी फिर से इंडेक्स किया जाना चाहिए, जो एक CPU गहन ऑपरेशन है। अपडेट एपीआई हुड के नीचे, Elasticsearch डेटा को Lucene इंडेक्स में संग्रहीत किया जाता है और उस इंडेक्स को छोटे खंडों में विभाजित किया जाता है। प्रत्येक खंड अपरिवर्तनीय है, इसलिए दस्तावेज़ों को बदला नहीं जा सकता। जब कोई अपडेट किया जाता है, तो पुराने दस्तावेज़ को हटाने के लिए चिह्नित किया जाता है और एक नया दस्तावेज़ एक नया खंड बनाने के लिए मर्ज किया जाता है। अपडेट किए गए दस्तावेज़ का उपयोग करने के लिए, सभी विश्लेषकों को चलाने की आवश्यकता होती है जो CPU उपयोग को भी बढ़ा सकता है। लगातार बदलते डेटा वाले ग्राहकों के लिए यह देखना आम बात है कि इंडेक्स मर्ज उनके समग्र Elasticsearch कंप्यूट बिल का काफी हिस्सा खा जाते हैं। आवश्यक संसाधनों की मात्रा को देखते हुए, इलास्टिक ने इलास्टिकसर्च में अपडेट की संख्या सीमित करने की सिफारिश की है। इलास्टिकसर्च के एक संदर्भ ग्राहक, ने अपने ई-कॉमर्स प्लेटफ़ॉर्म के हिस्से के रूप में साइट खोज के लिए इलास्टिकसर्च का उपयोग किया। बोल.कॉम ने अपनी पेशकशों में प्रतिदिन लगभग 700K अपडेट किए, जिसमें सामग्री, मूल्य निर्धारण और उपलब्धता में बदलाव शामिल थे। वे मूल रूप से एक ऐसा समाधान चाहते थे जो होने वाले किसी भी बदलाव के साथ तालमेल में रहे। लेकिन, इलास्टिकसर्च सिस्टम के प्रदर्शन पर अपडेट के प्रभाव को देखते हुए, उन्होंने 15-20 मिनट की देरी की अनुमति देने का विकल्प चुना। इलास्टिकसर्च में दस्तावेजों के बैचिंग ने सुसंगत क्वेरी प्रदर्शन सुनिश्चित किया। बोल.कॉम इलास्टिकसर्च में विलोपन और सेगमेंट मर्ज चुनौतियां इलास्टिकसर्च में और स्थान पुनः प्राप्त करने से संबंधित चुनौतियाँ हो सकती हैं। पुराने दस्तावेजों को हटाने जब किसी इंडेक्स में बहुत सारे सेगमेंट होते हैं या किसी सेगमेंट में बहुत सारे दस्तावेज़ होते हैं जिन्हें हटाने के लिए चिह्नित किया जाता है, तो इलास्टिकसर्च बैकग्राउंड में पूरा करता है। सेगमेंट मर्ज तब होता है जब दस्तावेज़ों को मौजूदा सेगमेंट से नए बने सेगमेंट में कॉपी किया जाता है और शेष सेगमेंट को हटा दिया जाता है। दुर्भाग्य से, ल्यूसीन उन सेगमेंट को आकार देने में अच्छा नहीं है जिन्हें मर्ज करने की आवश्यकता है, संभावित रूप से असमान सेगमेंट बनाते हैं जो प्रदर्शन और स्थिरता को प्रभावित करते हैं। सेगमेंट मर्ज को ऐसा इसलिए है क्योंकि इलास्टिकसर्च मानता है कि सभी दस्तावेज़ हैं और हटाए गए दस्तावेज़ों की संख्या के आधार पर मर्ज निर्णय लेता है। विषम दस्तावेज़ आकारों से निपटने पर, जैसा कि बहु-किरायेदार अनुप्रयोगों में अक्सर होता है, कुछ खंड दूसरों की तुलना में आकार में तेज़ी से बढ़ेंगे, जिससे अनुप्रयोग पर सबसे बड़े ग्राहकों के लिए प्रदर्शन धीमा हो जाएगा। इन मामलों में, एकमात्र उपाय बड़ी मात्रा में डेटा को फिर से अनुक्रमित करना है। समान आकार के इलास्टिकसर्च में प्रतिकृति चुनौतियां इलास्टिकसर्च प्रतिकृति के लिए उपयोग करता है। प्राथमिक प्रतिकृति आने वाले लेखन ऑपरेशन को संसाधित करती है और फिर ऑपरेशन को अपनी प्रतिकृतियों को अग्रेषित करती है। प्रत्येक प्रतिकृति इस ऑपरेशन को प्राप्त करती है और डेटा को स्थानीय रूप से फिर से अनुक्रमित करती है। इसका मतलब है कि प्रत्येक प्रतिकृति स्वतंत्र रूप से एक ही दस्तावेज़ को बार-बार फिर से अनुक्रमित करने के लिए महंगे कंप्यूट संसाधनों को खर्च करती है। यदि n प्रतिकृतियां हैं, तो इलास्टिक उसी दस्तावेज़ को अनुक्रमित करने के लिए n गुना CPU खर्च करेगा। यह उस डेटा की मात्रा को बढ़ा सकता है जिसे अपडेट या इंसर्ट होने पर फिर से की आवश्यकता होती है। प्राथमिक-बैकअप मॉडल का अनुक्रमित करने इलास्टिकसर्च में बल्क एपीआई और कतार चुनौतियां जबकि आप Elasticsearch में अपडेट API का उपयोग कर सकते हैं, यह आमतौर पर उपयोग करके लगातार परिवर्तनों को बैच करने के लिए अनुशंसित है। बल्क API का उपयोग करते समय, इंजीनियरिंग टीमों को अक्सर सिस्टम में अपडेट को सुव्यवस्थित करने के लिए एक कतार बनाने और प्रबंधित करने की आवश्यकता होगी। बल्क API का कतार इलास्टिकसर्च से स्वतंत्र होती है और उसे कॉन्फ़िगर और प्रबंधित करने की आवश्यकता होगी। कतार सिस्टम में एक विशिष्ट समय अंतराल, जैसे कि 15 मिनट, के भीतर सम्मिलित, अद्यतन और हटाए गए कार्यों को समेकित करेगी, ताकि इलास्टिकसर्च पर प्रभाव को सीमित किया जा सके। कतार प्रणाली अनुप्रयोग स्थिरता सुनिश्चित करने के लिए प्रविष्टि की दर अधिक होने पर थ्रॉटल भी लागू करेगी। जबकि कतारें अपडेट के लिए सहायक होती हैं, वे यह निर्धारित करने में अच्छी नहीं होती हैं कि कब बहुत सारे डेटा परिवर्तन होते हैं जिनके लिए डेटा के पूर्ण पुनः अनुक्रमण की आवश्यकता होती है। यह किसी भी समय हो सकता है यदि सिस्टम में बहुत सारे अपडेट हैं। बड़े पैमाने पर इलास्टिक चलाने वाली टीमों के लिए यह आम बात है कि उनके पास समर्पित संचालन सदस्य हों जो दैनिक आधार पर अपनी कतारों का प्रबंधन और ट्यूनिंग करें। इलास्टिकसर्च में पुनः अनुक्रमण जैसा कि पिछले अनुभाग में बताया गया है, जब बहुत सारे अपडेट होते हैं या आपको इंडेक्स मैपिंग बदलने की आवश्यकता होती है, तो डेटा का रीइंडेक्स होता है। त्रुटि होने की संभावना होती है और इससे क्लस्टर के बंद होने की संभावना होती है। इससे भी ज़्यादा भयावह बात यह है कि रीइंडेक्सिंग कभी भी हो सकती है। रीइंडेक्सिंग में यदि आप अपनी मैपिंग बदलना चाहते हैं, तो आपके पास रीइंडेक्सिंग होने के समय पर अधिक नियंत्रण होता है। इलास्टिक्सर्च में एक नया इंडेक्स बनाने के लिए रीइंडेक्स एपीआई और एक है जो यह सुनिश्चित करता है कि नया इंडेक्स बनाते समय कोई डाउनटाइम न हो। एलियासेस एपीआई के साथ, क्वेरीज़ को एलियास या पुराने इंडेक्स पर रूट किया जाता है, क्योंकि नया इंडेक्स बनाया जा रहा होता है। जब नया इंडेक्स तैयार हो जाता है, तो एलियासेस एपीआई नए इंडेक्स से डेटा पढ़ने के लिए कन्वर्ट हो जाएगा। एलियासेस एपीआई उपनाम API के साथ, नए इंडेक्स को नवीनतम डेटा के साथ सिंक में रखना अभी भी मुश्किल है। ऐसा इसलिए है क्योंकि Elasticsearch केवल एक इंडेक्स में डेटा लिख सकता है। इसलिए, आपको नए और पुराने इंडेक्स में डबल राइट करने के लिए डेटा पाइपलाइन अपस्ट्रीम को कॉन्फ़िगर करना होगा। रॉकसेट रॉकसेट में डेटा अंतर्ग्रहण रॉकसेट आपके डेटा को स्रोत सिस्टम के साथ सिंक में रखने के लिए बिल्ट-इन कनेक्टर का उपयोग करता है। रॉकसेट के प्रबंधित कनेक्टर प्रत्येक प्रकार के डेटा स्रोत के लिए ट्यून किए जाते हैं ताकि डेटा को 2 सेकंड के भीतर इन्जेस्ट किया जा सके और क्वेरी करने योग्य बनाया जा सके। यह मैन्युअल पाइपलाइनों से बचता है जो विलंबता को बढ़ाते हैं या केवल माइक्रो-बैच में डेटा को इन्जेस्ट कर सकते हैं, जैसे कि हर 15 मिनट में। उच्च स्तर पर, रॉकसेट OLTP डेटाबेस, डेटा स्ट्रीम और डेटा लेक और वेयरहाउस के लिए बिल्ट-इन कनेक्टर प्रदान करता है। यहाँ बताया गया है कि वे कैसे काम करते हैं: रॉकसेट आपके OLTP डेटाबेस में आपकी तालिकाओं का प्रारंभिक स्कैन करता है और फिर नवीनतम डेटा के साथ सिंक में रहने के लिए उपयोग करता है, जिसमें स्रोत सिस्टम द्वारा उत्पन्न होने के 2 सेकंड के भीतर डेटा को क्वेरी के लिए उपलब्ध कराया जाता है। OLTP डेटाबेस के लिए अंतर्निहित कनेक्टर CDC स्ट्रीम का या किनेसिस जैसी डेटा स्ट्रीम के साथ, रॉकसेट लगातार किसी भी नए विषय को पुल-आधारित एकीकरण का उपयोग करके ग्रहण करता है, जिसके लिए काफ्का या किनेसिस में किसी ट्यूनिंग की आवश्यकता नहीं होती है। डेटा स्ट्रीम के लिए अंतर्निहित कनेक्टर काफ्का रॉकसेट लगातार अपडेट की निगरानी करता है और S3 बकेट जैसे डेटा लेक से किसी भी नए ऑब्जेक्ट को ग्रहण करता है। हम आम तौर पर पाते हैं कि टीमें रीयल-टाइम एनालिटिक्स के लिए अपने डेटा लेक से डेटा के साथ रीयल-टाइम स्ट्रीम में शामिल होना चाहती हैं। डेटा लेक और वेयरहाउस के लिए बिल्ट-इन कनेक्टर रॉकसेट में अपडेट, इन्सर्ट और डिलीट रॉकसेट में एक वितरित वास्तुकला है जो एकाधिक मशीनों में समानांतर रूप से डेटा को कुशलतापूर्वक अनुक्रमित करने के लिए अनुकूलित है। रॉकसेट एक है, इसलिए यह पूरे डॉक्यूमेंट को एक ही मशीन पर लिखता है, बजाय इसके कि इसे अलग-अलग मशीनों पर अलग-अलग फ़ील्ड्स को अलग-अलग करके भेजा जाए। इस वजह से, अपडेट और डिलीट के लिए प्राथमिक कुंजी _id के आधार पर नए डॉक्यूमेंट को इन्सर्ट के लिए जोड़ना या मौजूदा डॉक्यूमेंट को ढूँढना तेज़ है। डॉक्यूमेंट-शार्डेड डेटाबेस इलास्टिकसर्च की तरह ही, रॉकसेट क्वेरी किए जाने पर डेटा को जल्दी और कुशलता से प्राप्त करने के लिए इंडेक्स का उपयोग करता है। हालांकि, अन्य डेटाबेस या सर्च इंजन के विपरीत, रॉकसेट एक में इन्जेस्ट समय पर डेटा को इंडेक्स करता है, एक इंडेक्स जो कॉलम स्टोर, सर्च इंडेक्स और रो स्टोर को जोड़ता है। कन्वर्ज्ड इंडेक्स फ़ील्ड में सभी मानों को कुंजी-मूल्य जोड़े की एक श्रृंखला के रूप में संग्रहीत करता है। नीचे दिए गए उदाहरण में आप एक दस्तावेज़ देख सकते हैं और फिर यह देख सकते हैं कि इसे रॉकसेट में कैसे संग्रहीत किया जाता है। कन्वर्ज्ड इंडेक्स हुड के नीचे, , एक उच्च-प्रदर्शन कुंजी-मूल्य संग्रह जो उत्परिवर्तन को तुच्छ बनाता है। RocksDB विभिन्न कुंजियों में परमाणु लेखन और विलोपन का समर्थन करता है। यदि किसी दस्तावेज़ के फ़ील्ड के लिए कोई अपडेट आता है, तो ठीक 3 कुंजियों को अपडेट करने की आवश्यकता होती है, प्रत्येक इंडेक्स के लिए एक। दस्तावेज़ में अन्य फ़ील्ड के लिए इंडेक्स अप्रभावित हैं, जिसका अर्थ है कि Rockset हर बार पूरे दस्तावेज़ों के लिए इंडेक्स अपडेट करने के चक्रों को बर्बाद करने के बजाय कुशलतापूर्वक अपडेट को संसाधित कर सकता है। Rockset RocksDB का उपयोग करता है name नेस्टेड दस्तावेज और एरे भी रॉकसेट में प्रथम श्रेणी के डेटा प्रकार हैं, जिसका अर्थ है कि वही अद्यतन प्रक्रिया उन पर भी लागू होती है, जिससे रॉकसेट JSON और एवरो जैसे आधुनिक प्रारूपों में संग्रहीत डेटा पर अपडेट के लिए उपयुक्त है। रॉकसेट की टीम ने रॉक्सडीबी के लिए कई कस्टम एक्सटेंशन भी बनाए हैं, ताकि उच्च लेखन और भारी पठन को संभाला जा सके, जो वास्तविक समय के एनालिटिक्स कार्यभार में एक सामान्य पैटर्न है। उन एक्सटेंशन में से एक है जो रॉक्सडीबी क्लाउड में क्वेरी कंप्यूट और इंडेक्सिंग कंप्यूट का एक साफ पृथक्करण प्रस्तुत करता है। यह रॉकसेट को पढ़ने में बाधा डालने वाले लेखन से बचने में सक्षम बनाता है। इन संवर्द्धनों के कारण, रॉकसेट ग्राहकों की ज़रूरतों के अनुसार अपने लेखन को स्केल कर सकता है और पृष्ठभूमि में उत्परिवर्तन होने पर भी क्वेरी के लिए ताज़ा डेटा उपलब्ध करा सकता है। रिमोट कॉम्पैक्शन रॉकसेट एपीआई का उपयोग करके अपडेट, सम्मिलित और हटाना रॉकसेट के उपयोगकर्ता डिफ़ॉल्ट _id फ़ील्ड का उपयोग कर सकते हैं या प्राथमिक कुंजी के रूप में एक विशिष्ट फ़ील्ड निर्दिष्ट कर सकते हैं। यह फ़ील्ड किसी दस्तावेज़ या दस्तावेज़ के किसी भाग को अधिलेखित करने में सक्षम बनाता है। रॉकसेट और इलास्टिक्सर्च के बीच अंतर यह है कि रॉकसेट पूरे दस्तावेज़ को फिर से अनुक्रमित किए बिना किसी व्यक्तिगत फ़ील्ड के मान को अपडेट कर सकता है। रॉकसेट एपीआई का उपयोग करके संग्रह में मौजूदा दस्तावेज़ों को अपडेट करने के लिए, आप पैच दस्तावेज़ एंडपॉइंट पर अनुरोध कर सकते हैं। प्रत्येक मौजूदा दस्तावेज़ के लिए जिसे आप अपडेट करना चाहते हैं, आपको बस _id फ़ील्ड और दस्तावेज़ पर लागू किए जाने वाले पैच ऑपरेशनों की सूची निर्दिष्ट करनी होगी। रॉकसेट एपीआई एक ऐड डॉक्यूमेंट्स एंडपॉइंट भी प्रदर्शित करता है ताकि आप अपने एप्लिकेशन कोड से सीधे अपने संग्रह में डेटा डाल सकें। मौजूदा दस्तावेज़ों को हटाने के लिए, बस उन दस्तावेज़ों के _id फ़ील्ड निर्दिष्ट करें जिन्हें आप हटाना चाहते हैं और रॉकसेट एपीआई के डिलीट डॉक्यूमेंट्स एंडपॉइंट पर अनुरोध करें। रॉकसेट में प्रतिकृतियों को संभालना इलास्टिकसर्च के विपरीत, रॉकसेट में केवल एक प्रतिकृति रॉकएसडीबी रिमोट कॉम्पैक्शन का उपयोग करके इंडेक्सिंग और कॉम्पैक्शन करती है। यह इंडेक्सिंग के लिए आवश्यक CPU की मात्रा को कम करता है, खासकर जब स्थायित्व के लिए कई प्रतिकृतियों का उपयोग किया जा रहा हो। रॉकसेट में पुनः अनुक्रमण रॉकसेट में इंगेस्ट समय पर, आप अपने कच्चे स्रोत डेटा पर लागू करने के लिए वांछित डेटा ट्रांसफ़ॉर्मेशन निर्दिष्ट करने के लिए इंगेस्ट ट्रांसफ़ॉर्मेशन का उपयोग कर सकते हैं। यदि आप बाद की तारीख में इंगेस्ट ट्रांसफ़ॉर्मेशन को बदलना चाहते हैं, तो आपको अपने डेटा को फिर से इंडेक्स करना होगा। ऐसा कहा जाता है कि, रॉकसेट सक्षम बनाता है और डेटा के हर क्षेत्र के मानों को गतिशील रूप से टाइप करता है। यदि डेटा या क्वेरी का आकार और स्वरूप बदलता है, तो रॉकसेट प्रदर्शन करना जारी रखेगा और डेटा को फिर से अनुक्रमित करने की आवश्यकता नहीं होगी। स्कीमलेस इंजेस्ट को रॉकसेट सैकड़ों टेराबाइट डेटा को बिना किसी पुनः अनुक्रमित किए स्केल कर सकता है। यह रॉकसेट की शार्डिंग रणनीति पर वापस जाता है। जब ग्राहक अपने वर्चुअल इंस्टेंस में आवंटित कंप्यूट बढ़ता है, तो क्लस्टर में बेहतर वितरण प्राप्त करने के लिए शार्ड्स का एक सबसेट फेरबदल किया जाता है, जिससे अधिक समानांतर, तेज़ इंडेक्सिंग और क्वेरी निष्पादन की अनुमति मिलती है। परिणामस्वरूप, इन परिदृश्यों में पुनः अनुक्रमण की आवश्यकता नहीं होती है। निष्कर्ष इलास्टिकसर्च को लॉग एनालिटिक्स के लिए डिज़ाइन किया गया था, जहाँ डेटा को बार-बार अपडेट, डाला या हटाया नहीं जा रहा है। समय के साथ, टीमों ने इलास्टिकसर्च के लिए अपने उपयोग का विस्तार किया है, अक्सर इलास्टिकसर्च का उपयोग द्वितीयक डेटा स्टोर और लगातार बदलते लेनदेन संबंधी डेटा पर रीयल-टाइम एनालिटिक्स के लिए इंडेक्सिंग इंजन के रूप में किया जाता है। यह एक महंगा प्रयास हो सकता है, खासकर उन टीमों के लिए जो डेटा के रीयल-टाइम अंतर्ग्रहण के लिए अनुकूलन करते हैं और साथ ही इसमें काफी मात्रा में प्रबंधन ओवरहेड भी शामिल होता है। दूसरी ओर, रॉकसेट को वास्तविक समय के विश्लेषण के लिए और नए डेटा को उत्पन्न होने के 2 सेकंड के भीतर क्वेरी के लिए उपलब्ध कराने के लिए डिज़ाइन किया गया था। इस उपयोग के मामले को हल करने के लिए, रॉकसेट इन-प्लेस इंसर्ट, अपडेट और डिलीट का समर्थन करता है, जिससे कंप्यूट पर बचत होती है और दस्तावेजों के रीइंडेक्सिंग के उपयोग को सीमित किया जाता है। रॉकसेट कनेक्टर्स और इंजेक्शन के प्रबंधन ओवरहेड को भी पहचानता है और एक प्लेटफ़ॉर्म दृष्टिकोण अपनाता है, जो अपने क्लाउड ऑफ़रिंग में वास्तविक समय के कनेक्टर्स को शामिल करता है। कुल मिलाकर, हमने देखा है कि जो कंपनियाँ रियल-टाइम एनालिटिक्स के लिए सिर्फ़ अपने कंप्यूट बिल पर 44% की बचत करती हैं। कुछ ही दिनों में Elasticsearch से Rockset पर स्विच करने वाली इंजीनियरिंग टीमों की लहर में शामिल हो जाएँ। आज ही अपना शुरू करें। Elasticsearch से Rockset पर माइग्रेट करती हैं, वे निःशुल्क परीक्षण