बड़े भाषा मॉडल के साथ अपने dbt प्रोजेक्ट को कैसे बढ़ाएं

संक्षेप में आप अपने dbt वातावरण में रहते हुए, LLM का उपयोग करके अपने टेक्स्ट डेटा के लिए सामान्य प्राकृतिक भाषा प्रसंस्करण कार्यों (वर्गीकरण, भावना विश्लेषण, आदि) को $10 प्रति 1M पंक्तियों के सस्ते दाम पर स्वचालित रूप से हल कर सकते हैं (यह कार्य और मॉडल पर निर्भर करता है)। निर्देश, विवरण और कोड नीचे दिए गए हैं यदि आप dbt को अपने परिवर्तन परत के रूप में उपयोग कर रहे हैं, तो आपके सामने ऐसी स्थिति आ सकती है जब आप असंरचित पाठ डेटा से सार्थक जानकारी निकालना चाहें। इस तरह के डेटा में ग्राहक समीक्षाएँ, शीर्षक, विवरण, Google Analytics स्रोत/माध्यम आदि शामिल हो सकते हैं। आप उन्हें समूहों में वर्गीकृत करना या भावनाएँ और स्वर प्राप्त करना चाह सकते हैं। संभावित समाधान होंगे डीबीटी प्रवाह के बाहर मशीन लर्निंग मॉडल लागू करें (या एलएलएम को बुलाएं) CASE WHEN कथनों का उपयोग करके dbt मॉडल के अंदर सरल वर्गीकरण परिभाषित करें श्रेणियों को पहले से ही पूर्वनिर्धारित करें और उन्हें या तो अपने कच्चे डेटाबेस स्तर पर अपलोड करें या डीबीटी सीड कार्यक्षमता का लाभ उठाएं चूंकि पायथन डीबीटी मॉडल विकसित हो रहे हैं, इसलिए एक और समाधान है: आप इन प्राकृतिक भाषा प्रसंस्करण कार्यों को अपने डीबीटी वातावरण के अंदर डीबीटी मॉडल के रूप में रख सकते हैं। यदि यह आपके लिए मददगार हो सकता है, तो अपने dbt प्रोजेक्ट में OpenAI API का उपयोग करने के तरीके पर नीचे चरण-दर-चरण मार्गदर्शिका देखें। आप GitHub रिपॉजिटरी से कोड और डेटा सैंपल लेकर अपने परिवेश में इस गाइड से सब कुछ पुन: पेश कर सकते हैं (अंत में लिंक देखें)। वातावरण सेट अप करें यदि आपके पास पहले से ही कोई dbt प्रोजेक्ट और डेटा है या आप परिणामों को पुन: प्रस्तुत नहीं करना चाहते हैं, तो (4) पर जाएँ या इस अनुभाग को पूरी तरह से छोड़ दें। अन्यथा, आपको निम्नलिखित की आवश्यकता होगी: । dbt प्रोजेक्ट सेट अप करें आधिकारिक दस्तावेज़ आप आसानी से से इस गाइड के लिए तैयार किए गए एक को क्लोन कर सकते हैं। GitHub अपनी profiles.yml फ़ाइल बनाना/अपडेट करना न भूलें। । मैंने स्नोफ्लेक का इस्तेमाल किया। दुर्भाग्य से, इसका कोई निःशुल्क संस्करण नहीं है, लेकिन वे प्रदान करते हैं, हालाँकि डेटाबेस सेट करें 30-दिन का निःशुल्क परीक्षण वर्तमान में, dbt पायथन मॉडल केवल स्नोफ्लेक, डेटाब्रिक्स और बिगक्वेरी (कोई PostgreSQL नहीं) के साथ काम करते हैं। इसलिए, यह ट्यूटोरियल उनमें से किसी के लिए भी काम करना चाहिए, हालाँकि कुछ विवरण भिन्न हो सकते हैं स्रोत डेटा तैयार करें डेटासेट के रूप में, मैंने TidyTuesday रिपॉजिटरी में प्रकाशित एक आर पैकेज मेटाडेटा का उपयोग किया। आप इसे से डाउनलोड कर सकते हैं। डेटासेट का विवरण है यहाँ यहाँ वैकल्पिक रूप से, आप मेरे रिपॉजिटरी से एक हल्के संस्करण का उपयोग कर सकते हैं यहां इसे अपने डेटाबेस पर अपलोड करें. अपने डेटाबेस और स्कीमा नामों से मिलान करने के लिए dbt प्रोजेक्ट में फ़ाइल को अपडेट करें। source.yml OpenAI API कुंजी प्राप्त करें से त्वरित आरंभ निर्देशों का पालन करें. आधिकारिक दस्तावेज़ों ध्यान दें: यह मुफ़्त नहीं है, लेकिन इसके लिए आपको भुगतान करना होगा। इसलिए, परीक्षण 10-पंक्ति डेटासेट के साथ, आपके प्रयोगों के दौरान आपसे $1 से ज़्यादा शुल्क नहीं लिया जाएगा। अतिरिक्त सावधानी बरतने के लिए, खर्च की सीमा निर्धारित करें। स्नोफ्लेक में बाह्य एक्सेस एकीकरण सेट अप करें यह तभी लागू होता है जब आप स्नोफ्लेक का उपयोग करते हैं। यदि ऐसा नहीं किया जाता है, तो dbt पायथन मॉडल इंटरनेट पर किसी भी API (OpenAI API सहित) तक नहीं पहुंच पाएंगे। पालन करें. आधिकारिक निर्देशों का इस एकीकरण में OpenAI API कुंजी संग्रहीत करें. श्रेणियों की सूची बनाएं सबसे पहले, यदि आप वर्गीकरण कार्य हल कर रहे हैं, तो आपको अपने LLM प्रॉम्प्ट में उपयोग करने के लिए श्रेणियों (उर्फ कक्षाओं) की आवश्यकता होगी। मूल रूप से, आप कहेंगे: "मेरे पास इन श्रेणियों की एक सूची है, क्या आप परिभाषित कर सकते हैं कि यह पाठ किस श्रेणी से संबंधित है?" यहां कुछ विकल्प हैं: पूर्वनिर्धारित श्रेणियों की सूची मैन्युअल रूप से बनाएं यदि आपको स्थिर और पूर्वानुमानित श्रेणियों की आवश्यकता है तो यह उपयुक्त है। यहां "अन्य" जोड़ना न भूलें, ताकि अनिश्चितता की स्थिति में एलएलएम के पास ये विकल्प उपलब्ध हों। अपने प्रॉम्प्ट में LLM से पूछें कि जब भी वह "अन्य" श्रेणी का उपयोग करे तो वह एक श्रेणी का नाम सुझाए। डेटाबेस की रॉ परत पर या अपने dbt प्रोजेक्ट में CSV के रूप में एक पूर्वनिर्धारित सूची अपलोड करें ( उपयोग करके)। dbt seed अपने डेटा का एक नमूना LLM को दें, और उसे N श्रेणियां बनाने को कहें। पिछले दृष्टिकोण जैसा ही, लेकिन हमें सूची बनाने में सहायता मिल रही है। यदि आप GPT का उपयोग करते हैं, तो पुनरुत्पादन के लिए बीज का उपयोग करना बेहतर है। पूर्वनिर्धारित श्रेणियों के बिना आगे बढ़ें, और LLM को चलते-फिरते काम करने दें। इससे कम पूर्वानुमानित परिणाम सामने आ सकते हैं। साथ ही, यदि आप यादृच्छिकता की सीमा के साथ ठीक हैं तो यह पर्याप्त है। GPT उपयोग के मामले में, यदि आपको पुनः चलाने की आवश्यकता हो तो भिन्न परिणामों से बचने के लिए तापमान = 0 रखना बेहतर होता है। इस ब्लॉग पोस्ट में, मैं तीसरे विकल्प का प्रयोग करूंगा। OpenAI API को कॉल करने के लिए dbt पायथन मॉडल बनाएं अब, आइए इस पोस्ट के मुख्य भाग पर जाएं और एक dbt मॉडल बनाएं जो अपस्ट्रीम टेबल से नया टेक्स्ट डेटा लेगा, इसे OpenAI API में फीड करेगा, और श्रेणी को टेबल में सेव करेगा। जैसा कि ऊपर बताया गया है, मैं R पैकेज डेटासेट का उपयोग करने जा रहा हूँ। डेटा विश्लेषण में R एक अत्यधिक लोकप्रिय प्रोग्रामिंग भाषा है। इस डेटासेट में CRAN प्रोजेक्ट से R पैकेज के बारे में जानकारी है, जैसे कि संस्करण, लाइसेंस, लेखक, शीर्षक, विवरण, आदि। हम फ़ील्ड में रुचि रखते हैं, क्योंकि हम प्रत्येक पैकेज के लिए उसके शीर्षक के आधार पर एक श्रेणी बनाने जा रहे हैं। title मॉडल के लिए आधार तैयार करें dbt कॉन्फ़िगरेशन को विधि के माध्यम से पारित किया जा सकता है। dbt.config(...) dbt.config में अतिरिक्त तर्क हैं, उदाहरण के लिए, एक पैकेज आवश्यकता है। packages dbt पायथन मॉडल अपस्ट्रीम मॉडल या संदर्भित कर सकता है dbt.ref('...') dbt.source('...') इसे एक DataFrame लौटाना होगा। आपका डेटाबेस इसे एक टेबल के रूप में सहेज लेगा। import os import openai import pandas as pd COL_TO_CATEGORIZE = 'title' def model(dbt, session): import _snowflake dbt.config( packages=['pandas', 'openai'], ) df = dbt.ref('package').to_pandas() df.drop_duplicates(subset=[COL_TO_CATEGORIZE], inplace=True) return df OpenAI API से कनेक्ट करें हमें और dbt.config में पास करना होगा। इसमें वह secret reference होगा जो आपके Snowflake External Access Integration में संग्रहीत है। secrets external_access_integrations नोट: यह सुविधा कुछ दिन पहले ही जारी की गई थी और यह केवल बीटा dbt संस्करण 1.8.0-b3 में उपलब्ध है dbt.config( packages=['pandas', 'openai'], secrets={'openai_key': 'openai_key', 'openai_org': 'openai_org'}, external_access_integrations=['openai_external_access_integration'], ) client = openai.OpenAI( api_key=_snowflake.get_generic_secret_string('openai_key'), organization=_snowflake.get_generic_secret_string('openai_org'), ) डीबीटी मॉडल को वृद्धिशील बनाएं, और पूर्ण रिफ्रेश को बंद करें। ओपनएआई एपीआई की लागत कम रखने के लिए यह भाग आवश्यक है। यह एक ही पाठ को कई बार वर्गीकृत करने से रोकेगा। अन्यथा, आप हर बार निष्पादित करते समय OpenAI को पूरा डेटा भेजेंगे, जो दिन में कई बार हो सकता है। dbt run हम , , dbt.config में जोड़ रहे हैं materialized='incremental' incremental_strategy='append' full_refresh = False अब, पूर्ण स्कैन केवल पहले dbt रन के लिए होगा, और बाद के रन के लिए (चाहे वृद्धिशील या पूर्ण-रिफ्रेश हो), यह केवल डेल्टा को वर्गीकृत करेगा। यदि आप अतिरिक्त सावधानी बरतना चाहते हैं, तो आप अद्वितीय प्रविष्टियों की संख्या को कम करने के लिए अपने डेटा को थोड़ा पूर्व-प्रसंस्करण कर सकते हैं, लेकिन बहुत अधिक पूर्व-प्रसंस्करण से बचें क्योंकि LLM प्राकृतिक भाषा के साथ बेहतर काम करते हैं। dbt.config( materialized='incremental', incremental_strategy='append', full_refresh = False, packages=['pandas', 'openai'], secrets={'openai_key': 'openai_key', 'openai_org': 'openai_org'}, external_access_integrations=['openai_external_access_integration'], ) if dbt.is_incremental: pass वृद्धिशीलता तर्क जोड़ें वृद्धिशील रन पर (हमारे सेटअप के कारण, इसका मतलब है कि पहले रन को छोड़कर किसी भी रन पर), हमें पहले से वर्गीकृत सभी शीर्षकों को हटाना होगा। हम इसे केवल उपयोग करके कर सकते हैं। सामान्य वृद्धिशील मॉडल के समान। dbt.this if dbt.is_incremental: categorized_query = f''' SELECT DISTINCT "{ COL_TO_CATEGORIZE }" AS primary_key FROM { dbt.this } WHERE "category" IS NOT NULL ''' categorized = [row.PRIMARY_KEY for row in session.sql(categorized_query).collect()] df = df.loc[~df[COL_TO_CATEGORIZE].isin(categorized), :] OpenAI API को बैचों में कॉल करें लागत कम करने के लिए, OpenAI API को डेटा को बैचों में भेजना बेहतर है। सिस्टम प्रॉम्प्ट उस टेक्स्ट से 5 गुना बड़ा हो सकता है जिसे हमें वर्गीकृत करने की आवश्यकता है। यदि हम प्रत्येक शीर्षक के लिए सिस्टम प्रॉम्प्ट को अलग से भेजते हैं, तो इससे दोहराए जाने वाले चीज़ों के लिए टोकन का उपयोग बहुत अधिक हो जाएगा। हालाँकि, बैच बड़ा नहीं होना चाहिए। बड़े बैच के साथ, GPT कम स्थिर परिणाम देना शुरू कर देता है। मेरे प्रयोगों से, बैच आकार = 5 काफी अच्छा काम करता है। इसके अतिरिक्त, यह सुनिश्चित करने के लिए कि प्रतिक्रिया प्रासंगिक आकार से अधिक न हो, मैंने प्रतिबंध जोड़ा। max_tokens BATCH_SIZE = 5 n_rows = df.shape[0] categories = [None for idx in range(n_rows)] for idx in range(0, n_rows, BATCH_SIZE): df_sliced = df.iloc[idx:idx+BATCH_SIZE, :] user_prompt = f'```{ "|".join(df_sliced[COL_TO_CATEGORIZE].to_list()) }```' chat_completion = client.chat.completions.create( messages=[ {'role': 'system', 'content': SYSTEM_PROMPT}, {'role': 'user', 'content': user_prompt} ], model='gpt-3.5-turbo', temperature=0, max_tokens=10*BATCH_SIZE + 2*BATCH_SIZE, ) gpt_response = chat_completion.choices[0].message.content gpt_response = [category.strip() for category in gpt_response.split('|')] categories[idx:idx + len(gpt_response)] = gpt_response df['category'] = categories df.dropna(subset=['category'], inplace=True) एलएलएम के लिए एक प्रॉम्प्ट के बारे में बात करने का समय आ गया है। मुझे यही मिला: आपको ``` कोष्ठकों में CRAN R पैकेज शीर्षकों की सूची प्रदान की जाएगी। शीर्षकों को "|" चिह्न से अलग किया जाएगा। प्रत्येक शीर्षक के लिए एक श्रेणी बनाएँ। केवल "|" चिह्न से अलग किए गए श्रेणी नाम लौटाएँ। निर्देश सीधे मुद्दे पर रखें। SQL इंजेक्शन से बचने के लिए ``` तकनीक का उपयोग करें। परिणाम प्रारूप पर स्पष्ट रहें। मेरे मामले में, मैंने इनपुट और आउटपुट दोनों के लिए विभाजक के रूप में "|" मांगा था अंतिम डीबीटी मॉडल कोड import os import openai import pandas as pd SYSTEM_PROMPT = '''You will be provided a list of CRAN R package titles in ``` brackets. Titles will be separated by "|" sign. Come up with a category for each title. Return only category names separated by "|" sign. ''' COL_TO_CATEGORIZE = 'title' BATCH_SIZE = 5 def model(dbt, session): import _snowflake dbt.config( materialized='incremental', incremental_strategy='append', full_refresh = False, packages=['pandas', 'openai'], secrets={'openai_key': 'openai_key', 'openai_org': 'openai_org'}, external_access_integrations=['openai_external_access_integration'], ) client = openai.OpenAI( api_key=_snowflake.get_generic_secret_string('openai_key'), organization=_snowflake.get_generic_secret_string('openai_org'), ) df = dbt.ref('package').to_pandas() df.drop_duplicates(subset=[COL_TO_CATEGORIZE], inplace=True) if dbt.is_incremental: categorized_query = f''' SELECT DISTINCT "{ COL_TO_CATEGORIZE }" AS primary_key FROM { dbt.this } WHERE "category" IS NOT NULL ''' categorized = [row.PRIMARY_KEY for row in session.sql(categorized_query).collect()] df = df.loc[~df[COL_TO_CATEGORIZE].isin(categorized), :] n_rows = df.shape[0] categories = [None for idx in range(n_rows)] for idx in range(0, n_rows, BATCH_SIZE): df_sliced = df.iloc[idx:idx+BATCH_SIZE, :] user_prompt = f'```{ "|".join(df_sliced[COL_TO_CATEGORIZE].to_list()) }```' chat_completion = client.chat.completions.create( messages=[ {'role': 'system', 'content': SYSTEM_PROMPT}, {'role': 'user', 'content': user_prompt} ], model='gpt-3.5-turbo', temperature=0, max_tokens=10*BATCH_SIZE + 2*BATCH_SIZE, ) gpt_response = chat_completion.choices[0].message.content gpt_response = [category.strip() for category in gpt_response.split('|')] categories[idx:idx + len(gpt_response)] = gpt_response df['category'] = categories df.dropna(subset=['category'], inplace=True) return df लागत अनुमान OpenAI API मूल्य निर्धारण सूचीबद्ध है। वे अनुरोधित और लौटाए गए टोकन की संख्या के लिए शुल्क लेते हैं। टोकन आपके अनुरोध में वर्णों की संख्या से संबंधित एक उदाहरण है। किसी दिए गए टेक्स्ट के लिए टोकन की संख्या का मूल्यांकन करने के लिए ओपन-सोर्स पैकेज हैं। उदाहरण के लिए, । यदि आप इसे मैन्युअल रूप से मूल्यांकन करना चाहते हैं, तो आपको आधिकारिक OpenAI टोकनाइज़र जाना होगा। यहाँ टिकटोकन यहाँ हमारे डेटासेट में, ~18K शीर्षक हैं। मोटे तौर पर, यह 320K इनपुट टोकन (180K शीर्षक और 140K सिस्टम प्रॉम्प्ट यदि हम बैच आकार = 5 का उपयोग करते हैं) और 50K आउटपुट टोकन के बराबर है। मॉडल के आधार पर, पूर्ण स्कैन की लागत होगी: : . मूल्य निर्धारण: इनपुट: $10 / 1M टोकन; आउटपुट: $30 / 1M टोकन. GPT-4 Turbo $4.7 : मूल्य निर्धारण: इनपुट: $30 / 1M टोकन; आउटपुट: $60 / 1M टोकन. GPT-4 $12.6. : मूल्य निर्धारण: इनपुट: $0.5 / 1M टोकन; आउटपुट: $1.5 / 1M टोकन. GPT-3.5 Turbo $0.2. परिणाम डीबीटी मॉडल ने कमाल का काम किया। मैंने बिना किसी अंतराल के सभी 18K पैकेजों को सफलतापूर्वक वर्गीकृत किया। मॉडल लागत-कुशल साबित हुआ और कई डीबीटी रन के खिलाफ सुरक्षित रहा। मैंने Tableau Public पर परिणाम डैशबोर्ड प्रकाशित किया है। आप इसके साथ खेलने के लिए स्वतंत्र हैं, डेटा डाउनलोड करें, और इसके ऊपर जो चाहें बना सकते हैं। यहाँ मुझे कुछ दिलचस्प विवरण मिले: शीर्ष-1 श्रेणी (1,190 पैकेज, या 6%) है। मुझे लगता है कि यह विज़ुअलाइज़ेशन टूल के रूप में R की लोकप्रियता को साबित करता है, खासकर शाइनी, प्लॉटली और अन्य जैसे पैकेजों के साथ। Data Visualization 2023 में शीर्ष दो बढ़ती श्रेणियां और थीं। ऐसा लगता है कि R का उपयोग डेटा-प्रोसेसिंग टूल के रूप में अधिक किया जाने लगा। Data Import Data Processing शीर्ष 30 श्रेणियों में सबसे बड़ी साल-दर-साल वृद्धि 2019 में में हुई। प्रसिद्ध पेपर "अटेंशन इज़ ऑल यू नीड" के दो साल बाद और GPT-1 रिलीज़ के आधे साल बाद :) Natural Language Processing आगे के विचार हम एक वैकल्पिक दृष्टिकोण का उपयोग कर सकते हैं - । GPT एम्बेडिंग यह बहुत सस्ता है. लेकिन इसमें इंजीनियरिंग की अधिक आवश्यकता है, क्योंकि वर्गीकरण का काम आपको स्वयं ही करना होगा (मेरे साथ बने रहें, क्योंकि मैं अगले पोस्ट में इस विकल्प पर चर्चा करने जा रहा हूँ)। निश्चित रूप से, इस भाग को dbt से हटाकर क्लाउड फ़ंक्शन या आपके द्वारा उपयोग किए जाने वाले किसी भी इंफ्रास्ट्रक्चर में डालना समझदारी है। साथ ही, यदि आप इसे dbt के अंतर्गत रखना चाहते हैं - तो यह पोस्ट आपके लिए है। मॉडल में कोई भी तर्क जोड़ने से बचें। इसे एक काम करना चाहिए - LLM को कॉल करें और परिणाम को सेव करें। इससे आपको इसे फिर से चलाने से बचने में मदद मिलेगी। संभावना अधिक है कि आप अपने dbt प्रोजेक्ट में कई वातावरण का उपयोग कर रहे हैं। आपको सावधान रहना चाहिए और प्रत्येक पुल अनुरोध पर प्रत्येक डेवलपर वातावरण में इस मॉडल को बार-बार चलाने से बचना चाहिए। ऐसा करने के लिए, आप के साथ तर्क को शामिल कर सकते हैं if dbt.config.get("target_name") == 'dev' सीमांकक के साथ प्रतिक्रिया अस्थिर हो सकती है। उदाहरण के लिए, GPT आपकी अपेक्षा से कम तत्व लौटा सकता है, और प्रारंभिक शीर्षकों को श्रेणियों की सूची में मैप करना कठिन होगा। इस पर काबू पाने के लिए, JSON आउटपुट की आवश्यकता के लिए अपने अनुरोध में जोड़ें। देखें। response_format={ "type": "json_object" } आधिकारिक दस्तावेज़ JSON आउटपुट के साथ, आप प्रॉम्प्ट में {"title": "category"} प्रारूप में उत्तर प्रदान करने के लिए कह सकते हैं, और फिर इसे अपने प्रारंभिक मानों पर मैप कर सकते हैं। ध्यान रखें कि यह अधिक महंगा होगा, क्योंकि इससे प्रतिक्रिया का आकार बढ़ जाएगा। अजीब बात यह है कि जब मैंने GPT 3.5 टर्बो के लिए JSON पर स्विच किया तो वर्गीकरण की गुणवत्ता में नाटकीय रूप से गिरावट आई। स्नोफ्लेक में एक विकल्प है - फ़ंक्शन का उपयोग करना। dbt ब्लॉग पर जोएल लैब्स द्वारा लिखी गई एक देखें। कॉर्टेक्स.कम्प्लीट() बेहतरीन पोस्ट बस इतना ही! मुझे बताइए आप क्या सोचते हैं। लिंक पूरा कोड GitHub पर: लिंक Tableau पब्लिक डैशबोर्ड: लिंक TidyTuesday R डेटासेट: लिंक