TL;DR  Bạn có thể tự động giải quyết các tác vụ Xử lý ngôn ngữ tự nhiên điển hình (phân loại, phân tích cảm tính, v.v.) cho dữ liệu văn bản của mình bằng LLM với mức giá rẻ nhất là 10 USD cho mỗi 1 triệu hàng (tùy thuộc vào nhiệm vụ và mô hình), duy trì trong môi trường dbt của bạn. Hướng dẫn, chi tiết và mã bên dưới  Nếu bạn đang sử dụng dbt làm lớp chuyển đổi, bạn có thể gặp tình huống muốn trích xuất thông tin có ý nghĩa từ dữ liệu văn bản phi cấu trúc. Những dữ liệu đó có thể bao gồm đánh giá của khách hàng, tiêu đề, mô tả, nguồn/phương tiện Google Analytics, v.v. Bạn có thể muốn phân loại chúng thành các nhóm hoặc tìm nạp cảm xúc và giọng điệu.  Các giải pháp tiềm năng sẽ là  Áp dụng các mô hình học máy (hoặc gọi LLM) bên ngoài luồng dbt  Xác định các phân loại đơn giản bên trong các mô hình dbt bằng cách sử dụng câu lệnh CASE WHEN  Xác định trước các danh mục và tải chúng lên lớp cơ sở dữ liệu thô của bạn hoặc tận dụng chức năng hạt giống dbt  Khi các mô hình dbt Python đang phát triển, có một giải pháp nữa: bạn có thể giữ các tác vụ Xử lý ngôn ngữ tự nhiên này bên trong môi trường dbt của mình dưới dạng một trong các mô hình dbt.  Nếu điều đó có thể hữu ích cho bạn, hãy xem hướng dẫn từng bước bên dưới về cách sử dụng API OpenAI trong dự án dbt của bạn. Bạn có thể tái tạo mọi thứ từ hướng dẫn này trong môi trường của mình, lấy mã và mẫu dữ liệu từ kho lưu trữ GitHub (xem các liên kết ở cuối).  Thiết lập môi trường  Nếu bạn đã có dự án và dữ liệu dbt hoặc không muốn tái tạo kết quả, hãy chuyển đến (4) hoặc bỏ qua hoàn toàn phần này. Nếu không, bạn sẽ cần những thứ sau:    .  Thiết lập dự án dbt Tài liệu chính thức  Bạn có thể chỉ cần sao chép cái tôi đã chuẩn bị cho hướng dẫn này từ   . GitHub  Đừng quên tạo/cập nhật tệp profile.yml của bạn.    . Tôi đã sử dụng Bông tuyết. Thật không may, không có phiên bản miễn phí nhưng họ cung cấp   . Thiết lập cơ sở dữ liệu bản dùng thử miễn phí 30 ngày  Hiện tại, các mô hình dbt Python chỉ hoạt động với Snowflake, Databricks và BigQuery (không có PostgreSQL). Vì vậy, hướng dẫn này sẽ phù hợp với bất kỳ trường hợp nào trong số đó, mặc dù một số chi tiết có thể khác nhau.   Chuẩn bị dữ liệu nguồn  Là một tập dữ liệu, tôi đã sử dụng siêu dữ liệu gói R được xuất bản trong kho lưu trữ TidyTuesday.  Bạn có thể tải về từ   . Chi tiết về tập dữ liệu có đây tại đây  Ngoài ra, bạn có thể sử dụng phiên bản nhẹ từ kho lưu trữ của tôi  tại đây  Tải nó lên cơ sở dữ liệu của bạn.  Cập nhật tệp   trong dự án dbt để khớp với tên cơ sở dữ liệu và lược đồ của bạn. source.yml   Nhận khóa API OpenAI  Làm theo hướng dẫn bắt đầu nhanh từ   . các tài liệu chính thức  Không: e nó không miễn phí, nhưng nó trả tiền khi bạn sử dụng. Vì vậy, với tập dữ liệu 10 hàng thử nghiệm, bạn sẽ không bị tính phí nhiều hơn $1 trong quá trình thử nghiệm của mình.  Để cẩn thận hơn, hãy đặt giới hạn chi tiêu.   Thiết lập tích hợp truy cập bên ngoài trong Snowflake  Điều này chỉ áp dụng nếu bạn sử dụng Snowflake.  Nếu điều này không được thực hiện, các mô hình dbt Python không thể truy cập bất kỳ API nào trên internet (bao gồm cả API OpenAI).  Thực hiện theo   . các hướng dẫn chính thức  Lưu trữ khóa API OpenAI trong tích hợp này.  Đưa ra danh sách các danh mục  Đầu tiên, nếu bạn đang giải quyết một nhiệm vụ phân loại, bạn cần các danh mục (hay còn gọi là lớp) để sử dụng trong lời nhắc LLM của mình. Về cơ bản, bạn sẽ nói: "Tôi có một danh sách các danh mục này, bạn có thể xác định văn bản này thuộc về danh mục nào không?"  Một số tùy chọn ở đây:  Tạo danh sách các danh mục được xác định trước theo cách thủ công  Nó phù hợp nếu bạn cần các danh mục ổn định và có thể dự đoán được.  Đừng quên thêm "Khác" vào đây để LLM sẽ có những lựa chọn này khi không chắc chắn.  Yêu cầu LLM trong lời nhắc của bạn đề xuất tên danh mục bất cứ khi nào nó sử dụng danh mục "Khác".  Tải danh sách được xác định trước lên lớp thô của cơ sở dữ liệu hoặc dưới dạng CSV trong dự án dbt của bạn (sử dụng   ). dbt seed  Cung cấp mẫu dữ liệu của bạn cho LLM và yêu cầu nó đưa ra N danh mục.  Cách tiếp cận tương tự như cách trước, nhưng chúng tôi đang nhận được trợ giúp về danh sách.  Nếu bạn sử dụng GPT, tốt hơn nên sử dụng hạt giống ở đây để có khả năng tái tạo.  Không cần có các danh mục được xác định trước và để LLM thực hiện công việc khi đang di chuyển.  Điều này có thể dẫn đến kết quả ít dự đoán hơn.  Đồng thời, sẽ đủ tốt nếu bạn hài lòng với một mức độ ngẫu nhiên.  Trong trường hợp sử dụng GPT, tốt hơn nên đặt nhiệt độ = 0 để tránh các kết quả khác nhau trong trường hợp bạn cần chạy lại.  Trong bài đăng trên blog này, tôi sẽ chọn tùy chọn thứ 3.  Tạo Mô hình Python dbt để gọi API OpenAI  Bây giờ, chúng ta hãy đi vào nội dung chính của bài đăng này và tạo một mô hình dbt sẽ lấy dữ liệu văn bản mới từ bảng ngược dòng, đưa dữ liệu đó vào API OpenAI và lưu danh mục vào bảng.  Như đã đề cập ở trên, tôi sẽ sử dụng tập dữ liệu gói R. R là ngôn ngữ lập trình rất phổ biến trong phân tích dữ liệu. Tập dữ liệu này chứa thông tin về các gói R từ dự án CRAN, chẳng hạn như phiên bản, giấy phép, tác giả, tiêu đề, mô tả, v.v. Chúng tôi quan tâm đến trường   vì chúng tôi sẽ tạo một danh mục cho mỗi gói dựa trên tiêu đề của nó. title   Chuẩn bị nền cho mô hình  Cấu hình dbt có thể được truyền qua phương thức   . dbt.config(...)  Có các đối số bổ sung trong dbt.config, ví dụ:   là một yêu cầu về gói. packages  Mô hình dbt Python có thể tham chiếu các mô hình ngược dòng   hoặc  dbt.ref('...') dbt.source('...')  Nó phải trả về DataFrame. Cơ sở dữ liệu của bạn sẽ lưu nó dưới dạng bảng.   import os import openai import pandas as pd COL_TO_CATEGORIZE = 'title' def model(dbt, session): import _snowflake dbt.config( packages=['pandas', 'openai'], ) df = dbt.ref('package').to_pandas() df.drop_duplicates(subset=[COL_TO_CATEGORIZE], inplace=True) return df   Kết nối với API OpenAI  Chúng ta cần chuyển   và   cho dbt.config. Nó sẽ chứa tham chiếu bí mật được lưu trữ trong Tích hợp truy cập bên ngoài Snowflake của bạn. secrets external_access_integrations  Lưu ý: tính năng này mới được phát hành vài ngày trước và chỉ có trong phiên bản beta dbt 1.8.0-b3   dbt.config( packages=['pandas', 'openai'], secrets={'openai_key': 'openai_key', 'openai_org': 'openai_org'}, external_access_integrations=['openai_external_access_integration'], ) client = openai.OpenAI( api_key=_snowflake.get_generic_secret_string('openai_key'), organization=_snowflake.get_generic_secret_string('openai_org'), )   Làm cho mô hình dbt tăng dần và tắt tính năng làm mới hoàn toàn.   Phần này rất cần thiết để giữ cho chi phí API OpenAI ở mức thấp.  Nó sẽ ngăn nó phân loại cùng một văn bản nhiều lần.  Nếu không, bạn sẽ gửi toàn bộ dữ liệu tới OpenAI mỗi khi bạn thực thi   , có thể vài lần một ngày. dbt run  Chúng tôi đang thêm   ,   ,   , vào dbt.config materialized='incremental' incremental_strategy='append' full_refresh = False  Bây giờ, quá trình quét toàn bộ sẽ chỉ dành cho lần chạy dbt đầu tiên và đối với những lần chạy sau (bất kể tăng dần hay làm mới toàn bộ), nó sẽ chỉ phân loại delta.  Nếu muốn lưu ý hơn, bạn có thể xử lý trước dữ liệu của mình một chút để giảm số lượng mục nhập duy nhất, nhưng tránh xử lý trước quá nhiều vì LLM hoạt động tốt hơn với ngôn ngữ tự nhiên.   dbt.config( materialized='incremental', incremental_strategy='append', full_refresh = False, packages=['pandas', 'openai'], secrets={'openai_key': 'openai_key', 'openai_org': 'openai_org'}, external_access_integrations=['openai_external_access_integration'], ) if dbt.is_incremental: pass   Thêm logic tăng dần  Trong lần chạy tăng dần (do thiết lập của chúng tôi, điều đó có nghĩa là trong bất kỳ lần chạy nào ngoại trừ lần chạy đầu tiên), chúng tôi cần xóa tất cả các tiêu đề đã được phân loại.  Chúng ta có thể làm điều đó bằng cách sử dụng   . Tương tự như các mô hình gia tăng thông thường. dbt.this   if dbt.is_incremental: categorized_query = f''' SELECT DISTINCT "{ COL_TO_CATEGORIZE }" AS primary_key FROM { dbt.this } WHERE "category" IS NOT NULL ''' categorized = [row.PRIMARY_KEY for row in session.sql(categorized_query).collect()] df = df.loc[~df[COL_TO_CATEGORIZE].isin(categorized), :]   Gọi API OpenAI theo đợt  Để giảm chi phí, tốt hơn hết bạn nên gửi dữ liệu tới API OpenAI theo đợt.  Lời nhắc hệ thống có thể lớn hơn 5 lần so với văn bản chúng ta cần phân loại. Nếu chúng tôi gửi lời nhắc hệ thống riêng cho từng tiêu đề, điều đó sẽ dẫn đến mức sử dụng mã thông báo cao hơn nhiều cho những thứ lặp đi lặp lại.  Tuy nhiên, lô không nên lớn. Với các lô lớn, GPT bắt đầu tạo ra kết quả kém ổn định hơn. Từ thử nghiệm của tôi, kích thước lô = 5 hoạt động đủ tốt.  Ngoài ra, để đảm bảo phản hồi không vượt quá kích thước phù hợp, tôi đã thêm ràng buộc   . max_tokens   BATCH_SIZE = 5 n_rows = df.shape[0] categories = [None for idx in range(n_rows)] for idx in range(0, n_rows, BATCH_SIZE): df_sliced = df.iloc[idx:idx+BATCH_SIZE, :] user_prompt = f'```{ "|".join(df_sliced[COL_TO_CATEGORIZE].to_list()) }```' chat_completion = client.chat.completions.create( messages=[ {'role': 'system', 'content': SYSTEM_PROMPT}, {'role': 'user', 'content': user_prompt} ], model='gpt-3.5-turbo', temperature=0, max_tokens=10*BATCH_SIZE + 2*BATCH_SIZE, ) gpt_response = chat_completion.choices[0].message.content gpt_response = [category.strip() for category in gpt_response.split('|')] categories[idx:idx + len(gpt_response)] = gpt_response df['category'] = categories df.dropna(subset=['category'], inplace=True)   Đã đến lúc nói về lời nhắc cho LLM. Đó là những gì tôi nhận được:  Bạn sẽ được cung cấp danh sách tiêu đề gói CRAN R trong ngoặc ```. Các tiêu đề sẽ được phân tách bằng dấu "|" dấu hiệu. Hãy đưa ra một danh mục cho mỗi tiêu đề. Chỉ trả lại tên danh mục được phân tách bằng "|" dấu hiệu.  Giữ hướng dẫn đi thẳng vào vấn đề.  Sử dụng kỹ thuật ``` để tránh việc tiêm SQL.  Hãy rõ ràng về định dạng kết quả. Trong trường hợp của tôi, tôi đã yêu cầu "|" như một dấu phân cách cho cả đầu vào và đầu ra   Mã mô hình dbt cuối cùng   import os import openai import pandas as pd SYSTEM_PROMPT = '''You will be provided a list of CRAN R package titles in ``` brackets. Titles will be separated by "|" sign. Come up with a category for each title. Return only category names separated by "|" sign. ''' COL_TO_CATEGORIZE = 'title' BATCH_SIZE = 5 def model(dbt, session): import _snowflake dbt.config( materialized='incremental', incremental_strategy='append', full_refresh = False, packages=['pandas', 'openai'], secrets={'openai_key': 'openai_key', 'openai_org': 'openai_org'}, external_access_integrations=['openai_external_access_integration'], ) client = openai.OpenAI( api_key=_snowflake.get_generic_secret_string('openai_key'), organization=_snowflake.get_generic_secret_string('openai_org'), ) df = dbt.ref('package').to_pandas() df.drop_duplicates(subset=[COL_TO_CATEGORIZE], inplace=True) if dbt.is_incremental: categorized_query = f''' SELECT DISTINCT "{ COL_TO_CATEGORIZE }" AS primary_key FROM { dbt.this } WHERE "category" IS NOT NULL ''' categorized = [row.PRIMARY_KEY for row in session.sql(categorized_query).collect()] df = df.loc[~df[COL_TO_CATEGORIZE].isin(categorized), :] n_rows = df.shape[0] categories = [None for idx in range(n_rows)] for idx in range(0, n_rows, BATCH_SIZE): df_sliced = df.iloc[idx:idx+BATCH_SIZE, :] user_prompt = f'```{ "|".join(df_sliced[COL_TO_CATEGORIZE].to_list()) }```' chat_completion = client.chat.completions.create( messages=[ {'role': 'system', 'content': SYSTEM_PROMPT}, {'role': 'user', 'content': user_prompt} ], model='gpt-3.5-turbo', temperature=0, max_tokens=10*BATCH_SIZE + 2*BATCH_SIZE, ) gpt_response = chat_completion.choices[0].message.content gpt_response = [category.strip() for category in gpt_response.split('|')] categories[idx:idx + len(gpt_response)] = gpt_response df['category'] = categories df.dropna(subset=['category'], inplace=True) return df  Ước tính chi phí  Giá API OpenAI được liệt kê   . Họ tính phí theo số lượng token được yêu cầu và trả lại. Mã thông báo là một phiên bản tương quan với một số ký tự trong yêu cầu của bạn. Có các gói nguồn mở để đánh giá một số mã thông báo cho một văn bản nhất định. Ví dụ:   . Nếu bạn muốn đánh giá nó theo cách thủ công, nơi cần đến là mã thông báo OpenAI chính thức   . ở đây Tiktoken tại đây  Trong tập dữ liệu của chúng tôi, có ~ 18 nghìn đầu sách. Đại khái, nó tương đương với 320K mã thông báo đầu vào (180K tiêu đề và 140K lời nhắc hệ thống nếu chúng tôi sử dụng kích thước lô = 5) và 50K mã thông báo đầu ra. Tùy thuộc vào kiểu máy, chi phí cho việc quét toàn bộ sẽ là:    :   . Giá cả: đầu vào: $10 / 1 triệu token; đầu ra: $30 / 1 triệu token. GPT-4 Turbo 4,7 USD    :   Giá cả: đầu vào: $30 / 1 triệu token; đầu ra: $60 / 1 triệu token. GPT-4 12,6 USD.    :   Giá cả: đầu vào: 0,5 USD / 1 triệu token; đầu ra: 1,5 USD / 1 triệu token. GPT-3.5 Turbo 0,2 USD.  Kết quả  Mô hình dbt hoạt động như một cơ duyên. Tôi đã phân loại thành công tất cả các gói 18K mà không có bất kỳ khoảng trống nào. Mô hình này tỏ ra hiệu quả về mặt chi phí và được bảo vệ trước nhiều lần chạy dbt.  Tôi đã xuất bản bảng điều khiển kết quả lên Tableau Public   . Hãy thoải mái chơi với nó, tải xuống dữ liệu và tạo bất cứ thứ gì bạn muốn trên đó.  tại đây  Một số chi tiết thú vị tôi tìm thấy:  Danh mục top 1 là   (1.190 gói, tương đương 6%). Tôi đoán điều này chứng tỏ sự phổ biến của R như một công cụ trực quan hóa, đặc biệt là với các gói như Shiny, Plotly và các gói khác. Data Visualization  Hai danh mục phát triển hàng đầu vào năm 2023 là   và   . Có vẻ như R bắt đầu được sử dụng nhiều hơn như một công cụ xử lý dữ liệu. Data Import Data Processing  Mức tăng trưởng hàng năm lớn nhất trong số 30 hạng mục hàng đầu là   vào năm 2019. Hai năm sau bài báo nổi tiếng "Chú ý là tất cả những gì bạn cần" và nửa năm sau khi phát hành GPT-1 :) Natural Language Processing  Ý tưởng khác  Chúng tôi có thể sử dụng một cách tiếp cận khác -   . nhúng GPT  Nó rẻ hơn nhiều.  Nhưng nặng về kỹ thuật hơn vì bạn nên tự mình thực hiện phần phân loại (hãy chú ý theo dõi vì tôi sẽ khám phá tùy chọn này trong một trong các bài đăng tiếp theo).  Chắc chắn, việc loại bỏ phần này khỏi dbt và đẩy nó lên các chức năng đám mây hoặc bất kỳ cơ sở hạ tầng nào bạn sử dụng là điều hợp lý. Đồng thời, nếu bạn muốn giữ nó dưới dbt - bài đăng này sẽ giúp bạn hiểu rõ hơn.  Tránh thêm bất kỳ logic nào vào mô hình. Nó sẽ thực hiện một công việc - gọi LLM và lưu kết quả. Điều này sẽ giúp bạn tránh phải chạy lại nó.  Rất có thể bạn đang sử dụng nhiều môi trường trong dự án dbt của mình. Bạn cần lưu ý và tránh chạy đi chạy lại mô hình này trong từng môi trường nhà phát triển trên mỗi Yêu cầu Kéo.  Để thực hiện việc này, bạn có thể kết hợp logic với  if dbt.config.get("target_name") == 'dev'  Phản hồi bằng dấu phân cách có thể không ổn định.  Ví dụ: GPT có thể trả về ít phần tử hơn bạn mong đợi và sẽ khó ánh xạ các tiêu đề ban đầu vào danh sách danh mục.  Để khắc phục điều này, hãy thêm   vào yêu cầu của bạn để yêu cầu đầu ra JSON. Xem   . response_format={ "type": "json_object" } tài liệu chính thức  Với đầu ra JSON, bạn có thể yêu cầu cung cấp câu trả lời ở định dạng {"title": "category"}, sau đó ánh xạ câu trả lời đó tới các giá trị ban đầu của bạn.  Lưu ý rằng nó sẽ đắt hơn vì nó sẽ tăng kích thước phản hồi.  Thật kỳ lạ, chất lượng phân loại giảm đáng kể khi tôi chuyển sang JSON cho GPT 3.5 Turbo.  Có một giải pháp thay thế trong Snowflake - sử dụng hàm   . Hãy xem một   của Joel Labes trên blog dbt. Cortex.complete() bài đăng tuyệt vời  Đó là nó! Cho tôi biết bạn nghĩ gì.  Liên kết  Mã đầy đủ trên GitHub:  link  Bảng điều khiển công khai của Tableau:  liên kết  Tập dữ liệu TidyTuesday R: liên kết

This story contains new, firsthand information uncovered by the writer.

The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.

Read My Stories

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Cách nâng cao dự án dbt của bạn bằng các mô hình ngôn ngữ lớn

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

94 Stories To Learn About John Locke

128 Stories To Learn About Charles Dickens

240 Stories To Learn About Astounding Stories

85 Stories To Learn About Travel

94 Stories To Learn About John Locke

128 Stories To Learn About Charles Dickens

240 Stories To Learn About Astounding Stories

85 Stories To Learn About Travel

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps