Поскольку предприятия ежедневно генерируют огромные объемы данных, извлечь полезную информацию из всей этой информации может быть непросто, особенно со сложными наборами данных и огромными объемами данных. Но с помощью генеративного ИИ мы можем упростить и автоматизировать анализ данных, сделав его эффективным и доступным. В этой статье я покажу вам, как настроить и использовать помощника   AI с использованием Google   , OpenAI,   и   (DLP). по анализу данных Langchain BigQuery Data Loss Prevention  Вариант использования: автоматизация анализа данных с помощью BigQuery  Проектирование решения  Решение включает в себя настройку приложения Streamlit с использованием Langchain и OpenAI, которое взаимодействует с набором данных BigQuery для автоматизации анализа данных. Этот агент будет использовать специальные инструменты для конкретных задач, таких как маскировка атрибутов клиентов, позволяющих идентифицировать личность, и визуализация данных. Кроме того, агент будет настроен на сохранение истории чата, обеспечивая контекстуально точные ответы.     Вот схема архитектуры решения:   Давайте рассмотрим сценарий, в котором у нас есть набор данных BigQuery, содержащий следующие таблицы:    : содержит данные о клиентах. Таблица клиентов    : содержит контактную информацию о клиенте. Таблица контактов    : связывает клиентов с адресами. Таблица адресов клиентов    : содержит информацию об адресах. Таблица адресов    : регистрирует сводные данные пакетных заданий ETL, которые усекают и загружают данные в таблицы профилей клиентов.  Таблица статистики заданий  Настройка Лангчейна   Что такое Лангчейн?  LangChain предоставляет разработчикам ИИ инструменты для соединения языковых моделей с внешними источниками данных. Он имеет открытый исходный код и поддерживается активным сообществом. Организации могут использовать LangChain бесплатно и получать поддержку от других разработчиков, владеющих этой структурой.  Чтобы выполнить анализ данных с помощью Langchain, нам сначала необходимо установить библиотеки Langchain и OpenAI. Это можно сделать, скачав необходимые библиотеки и затем импортировав их в свой проект.   Установите Лангчейн:   pip install langchain matplotlib pandas streamlit pip install -qU langchain-openai langchain-community   Определите модель Langchain и настройте соединение Bigquery:   import os import re import streamlit as st from google.cloud import dlp_v2 from google.cloud.dlp_v2 import types from langchain.agents import create_sql_agent from langchain_community.vectorstores import FAISS from langchain_core.example_selectors import SemanticSimilarityExampleSelector from langchain_core.messages import AIMessage from langchain_core.prompts import ( SystemMessagePromptTemplate, PromptTemplate, FewShotPromptTemplate, ) from langchain_core.prompts.chat import ( ChatPromptTemplate, HumanMessagePromptTemplate, MessagesPlaceholder, ) from langchain.memory import ConversationBufferMemory from langchain_experimental.utilities import PythonREPL from langchain_openai import ChatOpenAI, OpenAIEmbeddings from langchain.sql_database import SQLDatabase from langchain.tools import Tool service_account_file = f"{os.getcwd()}/service-account-key.json" os.environ["OPENAI_API_KEY"] = ( "xxxxxx" ) os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = service_account_file model = ChatOpenAI(model="gpt-4o", temperature=0) project = "lively-metrics-295911" dataset = "customer_profiles" sqlalchemy_url = ( f"bigquery://{project}/{dataset}?credentials_path={service_account_file}" ) db = SQLDatabase.from_uri(sqlalchemy_url)  Настройка пользовательских инструментов  Чтобы расширить возможности нашего агента, мы можем настроить специальные инструменты для конкретных задач, таких как маскирование данных PII и визуализация данных.   Маскирование личных данных с помощью Google Cloud DLP  Конфиденциальность данных имеет решающее значение. Чтобы защитить личные данные в выходных данных, мы можем использовать Google Cloud Data Loss Prevention (DLP). Мы создадим специальный инструмент, который будет вызывать API DLP для маскировки любых личных данных, присутствующих в ответе.   def mask_pii_data(text): dlp = dlp_v2.DlpServiceClient() project_id = project parent = f"projects/{project_id}" info_types = [ {"name": "EMAIL_ADDRESS"}, {"name": "PHONE_NUMBER"}, {"name": "DATE_OF_BIRTH"}, {"name": "LAST_NAME"}, {"name": "STREET_ADDRESS"}, {"name": "LOCATION"}, ] deidentify_config = types.DeidentifyConfig( info_type_transformations=types.InfoTypeTransformations( transformations=[ types.InfoTypeTransformations.InfoTypeTransformation( primitive_transformation=types.PrimitiveTransformation( character_mask_config=types.CharacterMaskConfig( masking_character="*", number_to_mask=0, reverse_order=False ) ) ) ] ) ) item = {"value": text} inspect_config = {"info_types": info_types} request = { "parent": parent, "inspect_config": inspect_config, "deidentify_config": deidentify_config, "item": item, } response = dlp.deidentify_content(request=request) return response.item.value   Python REPL  Далее, чтобы позволить LLM выполнять визуализацию данных с помощью Python, мы воспользуемся Python REPL и определим специальный инструмент для нашего агента.   python_repl = PythonREPL()  Теперь давайте создадим инструменты агента, которые будут включать в себя   и  mask_pii_data python_repl:   def sql_agent_tools(): tools = [ Tool.from_function( func=mask_pii_data, name="mask_pii_data", description="Masks PII data in the input text using Google Cloud DLP.", ), Tool( name="python_repl", description=f"A Python shell. Use this to execute python commands. \ Input should be a valid python command. \ If you want to see the output of a value, \ you should print it out with `print(...)`.", func=python_repl.run, ), ] return tools  Использование примеров с несколькими кадрами  Предоставление модели нескольких примеров помогает направить ее реакцию и повысить производительность.  Определите примеры SQL-запросов,   # Example Queries sql_examples = [ { "input": "Count of Customers by Source System", "query": f""" SELECT source_system_name, COUNT(*) AS customer_count FROM `{project}.{dataset}.customer` GROUP BY source_system_name ORDER BY customer_count DESC; """, }, { "input": "Average Age of Customers by Gender", "query": f""" SELECT gender, AVG(EXTRACT(YEAR FROM CURRENT_DATE()) - EXTRACT(YEAR FROM dob)) AS average_age FROM `{project}.{dataset}.customer` GROUP BY gender; """, }, ... ]   Затем добавьте примеры в шаблон подсказки с несколькими предложениями.   example_selector = SemanticSimilarityExampleSelector.from_examples( sql_examples, OpenAIEmbeddings(), FAISS, k=2, input_keys=["input"], )  Затем определите префикс и суффикс, а затем передайте   непосредственно в фабричный метод   . few_shot_prompt from_messages  Примечание. В SUFFIX есть переменная   , которую я объясню на следующем шаге, когда мы создадим агента и добавим память. {chat_history}   PREFIX = """ You are a SQL expert. You have access to a BigQuery database. Identify which tables can be used to answer the user's question and write and execute a SQL query accordingly. Given an input question, create a syntactically correct SQL query to run against the dataset customer_profiles, then look at the results of the query and return the answer. Unless the user specifies a specific number of examples they wish to obtain, always limit your query to at most {top_k} results. You can order the results by a relevant column to return the most interesting examples in the database. Never query for all the columns from a specific table; only ask for the relevant columns given the question. You have access to tools for interacting with the database. Only use the information returned by these tools to construct your final answer. You MUST double check your query before executing it. If you get an error while executing a query, rewrite the query and try again.DO NOT make any DML statements (INSERT, UPDATE, DELETE, DROP etc.) to the database. If the question does not seem related to the database, just return "I don't know" as the answer. If the user asks for a visualization of the results, use the python_agent tool to create and display the visualization. After obtaining the results, you must use the mask_pii_data tool to mask the results before providing the final answer. """ SUFFIX = """Begin! {chat_history} Question: {input} Thought: I should look at the tables in the database to see what I can query. Then I should query the schema of the most relevant tables. {agent_scratchpad}""" few_shot_prompt = FewShotPromptTemplate( example_selector=example_selector, example_prompt=PromptTemplate.from_template( "User input: {input}\nSQL query: {query}" ), prefix=PREFIX, suffix="", input_variables=["input", "top_k"], example_separator="\n\n", ) messages = [ SystemMessagePromptTemplate(prompt=few_shot_prompt), MessagesPlaceholder(variable_name="chat_history"), HumanMessagePromptTemplate.from_template("{input}"), AIMessage(content=SUFFIX), MessagesPlaceholder(variable_name="agent_scratchpad"), ] prompt = ChatPromptTemplate.from_messages(messages)  Объяснение переменных    : ввод или запрос пользователя. ввод    : область временного хранения промежуточных шагов или мыслей. Agent_scratchpad    : отслеживает предыдущие взаимодействия для поддержания контекста. chat_history    : гарантирует, что агент сможет корректно обрабатывать ошибки синтаксического анализа и восстанавливаться после них. handle_parsing_errors    : модуль, используемый для хранения и извлечения истории чата. Память  Пришло время для последнего шага. Давайте создадим приложение!  Создание приложения LLM с помощью Streamlit  Чтобы создать интерактивный интерфейс для тестирования только что созданного нами агента Langchain, мы можем использовать Streamlit.   st.title("Data Analysis Assistant") if "history" not in st.session_state: st.session_state.history = [] user_input = st.text_input("Ask your question:") if st.button("Run Query"): if user_input: with st.spinner("Processing..."): st.session_state.history.append(f"User: {user_input}") response = agent_executor.run(input=user_input) if "sandbox:" in response: response = response.replace(f"sandbox:", "") match = re.search(r"\((.+\.png)\)", response) if match: image_file_path = match.group(1) if os.path.isfile(image_file_path): st.session_state.history.append({"image": image_file_path}) else: st.error("The specified image file does not exist.") else: st.session_state.history.append(f"Agent: {response}") st.experimental_rerun() else: st.error("Please enter a question.") for message in st.session_state.history: if isinstance(message, str): st.write(message) elif isinstance(message, dict) and "image" in message: st.image(message["image"])  Мы все настроили. Давайте запустим приложение Streamlit   streamlit run app.py  и проверьте его, задав несколько аналитических вопросов.   Заключение  Используя Langchain и OpenAI, мы можем автоматизировать сложные задачи анализа данных, что значительно упрощает получение информации из больших наборов данных. Такой подход не только экономит время, но и обеспечивает точный и последовательный анализ. Независимо от того, работаете ли вы с профилями клиентов, контактной информацией или статистикой вакансий, помощник по анализу данных на базе искусственного интеллекта может значительно улучшить ваши возможности обработки данных. Полный исходный код см.  .   Репозиторий GitHub

2022 - HackerNoon Contributor of the Year - Serverless

yai333

Nominated for 2022 - HackerNoon Contributor of the Year - Serverless

Read My Stories

Этот звук создан на языке оригинала истории!

Как я создал помощник по анализу данных с помощью BigQuery и Langchain

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Хотите выиграть конкурс HackerNoon? Вот что рекомендуют победители конкурса #crypto-api

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Краткое введение в теорию мозга Больцмана

Хотите выиграть конкурс HackerNoon? Вот что рекомендуют победители конкурса #crypto-api

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Краткое введение в теорию мозга Больцмана

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps