グラフ検索拡張生成 (   ) は勢いを増しており、従来のベクトル検索検索方法に強力な追加機能として加わりつつあります。このアプローチは、データをノードと関係として整理するグラフ データベースの構造化された性質を活用して、取得された情報の深さとコンテキストを強化します。  GraphRAG グラフは、異種で相互接続された情報を構造化された方法で表現および保存するのに優れており、さまざまなデータ タイプにわたる複雑な関係や属性を簡単にキャプチャできます。対照的に、ベクター データベースは、高次元ベクターを介して非構造化データを処理することに強みがあるため、このような構造化情報を扱うのに苦労することがよくあります。RAG アプリケーションでは、構造化グラフ データと非構造化テキストによるベクター検索を組み合わせて、両方の長所を実現できます。このブログ投稿では、その点について説明します。 ナレッジグラフは素晴らしいですが、どうやって作成するのでしょうか? ナレッジ グラフの構築は、通常、最も難しいステップです。データの収集と構造化が伴い、ドメインとグラフ モデリングの両方に対する深い理解が必要です。 このプロセスを簡素化するために、私たちは LLM の実験を行ってきました。言語とコンテキストを深く理解する LLM は、ナレッジ グラフ作成プロセスの重要な部分を自動化できます。テキスト データを分析することで、これらのモデルはエンティティを識別し、それらの関係を理解し、それらをグラフ構造で最適に表現する方法を提案できます。 これらの実験の結果、グラフ構築モジュールの最初のバージョンが LangChain に追加されました。このブログ投稿ではこれについて説明します。 コードは で入手できます。 GitHub  Neo4j 環境のセットアップ Neo4j インスタンスをセットアップする必要があります。このブログ投稿の例に従ってください。最も簡単な方法は、Neo4j データベースのクラウド インスタンスを提供する で無料インスタンスを開始することです。または、  アプリケーションをダウンロードしてローカル データベース インスタンスを作成し、Neo4j データベースのローカル インスタンスをセットアップすることもできます。 Neo4j Aura Neo4j デスクトップ   os.environ["OPENAI_API_KEY"] = "sk-" os.environ["NEO4J_URI"] = "bolt://localhost:7687" os.environ["NEO4J_USERNAME"] = "neo4j" os.environ["NEO4J_PASSWORD"] = "password" graph = Neo4jGraph() さらに、このブログ記事では OpenAI のモデルを使用するため、  を提供する必要があります。 OpenAI キー データの取り込み このデモでは、 Wikipedia ページを使用します。LangChain 使用して、Wikipedia からドキュメントをシームレスに取得および分割できます。 エリザベス 1 世の ローダーを   # Read the wikipedia article raw_documents = WikipediaLoader(query="Elizabeth I").load() # Define chunking strategy text_splitter = TokenTextSplitter(chunk_size=512, chunk_overlap=24) documents = text_splitter.split_documents(raw_documents[:3]) 取得したドキュメントに基づいてグラフを構築します。この目的のために、グラフ データベースでのナレッジ グラフの構築と保存を大幅に簡素化する LLMGraphTransformer モジュールを実装しました。   llm=ChatOpenAI(temperature=0, model_name="gpt-4-0125-preview") llm_transformer = LLMGraphTransformer(llm=llm) # Extract graph data graph_documents = llm_transformer.convert_to_graph_documents(documents) # Store to neo4j graph.add_graph_documents( graph_documents, baseEntityLabel=True, include_source=True ) ナレッジグラフ生成チェーンで使用するLLMを定義できます。現在、OpenAIとMistralの関数呼び出しモデルのみをサポートしています。ただし、将来的にはLLMの選択範囲を拡張する予定です。この例では、最新のGPT-4を使用しています。生成されるグラフの品質は、使用しているモデルに大きく依存することに注意してください。理論的には、常に最も機能的なモデルを使用する必要があります。LLMグラフトランスフォーマーはグラフドキュメントを返します。これは、add_graph_documentsメソッドを介してNeo4jにインポートできます。baseEntityLabelパラメータは、追加のエンティティラベルを割り当てます。 各ノードにラベルを付けることで、インデックス作成とクエリのパフォーマンスが向上します。include_source パラメータはノードを元のドキュメントにリンクし、データの追跡可能性とコンテキストの理解を容易にします。 実在物 生成されたグラフは Neo4j ブラウザで検査できます。  この画像は生成されたグラフの一部のみを表していることに注意してください。  RAG のハイブリッド検索 グラフ生成後、RAG アプリケーションでは、ベクトル インデックスとキーワード インデックスをグラフ検索と組み合わせたハイブリッド検索アプローチを使用します。  この図は、ユーザーが質問を投げかけることから始まる検索プロセスを示しています。この質問は RAG リトリーバーに送られます。このリトリーバーは、キーワード検索とベクター検索を使用して非構造化テキスト データを検索し、それをナレッジ グラフから収集した情報と組み合わせます。Neo4j はキーワード インデックスとベクター インデックスの両方を備えているため、単一のデータベース システムで 3 つの検索オプションすべてを実装できます。これらのソースから収集されたデータは LLM に送られ、最終的な回答が生成されて提供されます。 非構造化データ取得ツール Neo4jVector.from_existing_graph メソッドを使用して、ドキュメントにキーワードとベクターの両方の取得を追加できます。このメソッドは、Document というラベルの付いたノードをターゲットとするハイブリッド検索アプローチ用に、キーワードとベクターの検索インデックスを構成します。さらに、テキスト埋め込み値が欠落している場合はそれを計算します。   vector_index = Neo4jVector.from_existing_graph( OpenAIEmbeddings(), search_type="hybrid", node_label="Document", text_node_properties=["text"], embedding_node_property="embedding" ) その後、ベクトル インデックスは similarity_search メソッドで呼び出すことができます。 グラフレトリーバー 一方、グラフ取得の構成はより複雑ですが、より自由度が高くなります。この例では、フルテキスト インデックスを使用して関連するノードを識別し、それらの直接の近傍を返します。  グラフ リトリーバーは、入力内の関連エンティティを識別することから始まります。簡単にするために、LLM に人、組織、場所を識別するように指示します。これを実現するには、新しく追加された with_structured_output メソッドを備えた を使用します。 LCEL   # Extract entities from text class Entities(BaseModel): """Identifying information about entities.""" names: List[str] = Field( ..., description="All the person, organization, or business entities that " "appear in the text", ) prompt = ChatPromptTemplate.from_messages( [ ( "system", "You are extracting organization and person entities from the text.", ), ( "human", "Use the given format to extract information from the following " "input: {question}", ), ] ) entity_chain = prompt | llm.with_structured_output(Entities) テストしてみましょう:   entity_chain.invoke({"question": "Where was Amelia Earhart born?"}).names # ['Amelia Earhart'] 質問内のエンティティを検出できるようになったので、フルテキスト インデックスを使用してエンティティをナレッジ グラフにマッピングしてみましょう。まず、フルテキスト インデックスと、多少のスペルミスを許容するフルテキスト クエリを生成する関数を定義する必要がありますが、ここでは詳しく説明しません。   graph.query( "CREATE FULLTEXT INDEX entity IF NOT EXISTS FOR (e:__Entity__) ON EACH [e.id]") def generate_full_text_query(input: str) -> str: """ Generate a full-text search query for a given input string. This function constructs a query string suitable for a full-text search. It processes the input string by splitting it into words and appending a similarity threshold (~2 changed characters) to each word, then combines them using the AND operator. Useful for mapping entities from user questions to database values, and allows for some misspelings. """ full_text_query = "" words = [el for el in remove_lucene_chars(input).split() if el] for word in words[:-1]: full_text_query += f" {word}~2 AND" full_text_query += f" {words[-1]}~2" return full_text_query.strip() では、すべてをまとめてみましょう。   # Fulltext index query def structured_retriever(question: str) -> str: """ Collects the neighborhood of entities mentioned in the question """ result = "" entities = entity_chain.invoke({"question": question}) for entity in entities.names: response = graph.query( """CALL db.index.fulltext.queryNodes('entity', $query, {limit:2}) YIELD node,score CALL { MATCH (node)-[r:!MENTIONS]->(neighbor) RETURN node.id + ' - ' + type(r) + ' -> ' + neighbor.id AS output UNION MATCH (node)<-[r:!MENTIONS]-(neighbor) RETURN neighbor.id + ' - ' + type(r) + ' -> ' + node.id AS output } RETURN output LIMIT 50 """, {"query": generate_full_text_query(entity)}, ) result += "\n".join([el['output'] for el in response]) return result  structured_retriever 関数は、まずユーザーの質問内のエンティティを検出します。次に、検出されたエンティティを反復処理し、Cypher テンプレートを使用して関連するノードの近傍を取得します。テストしてみましょう。   print(structured_retriever("Who is Elizabeth I?")) # Elizabeth I - BORN_ON -> 7 September 1533 # Elizabeth I - DIED_ON -> 24 March 1603 # Elizabeth I - TITLE_HELD_FROM -> Queen Of England And Ireland # Elizabeth I - TITLE_HELD_UNTIL -> 17 November 1558 # Elizabeth I - MEMBER_OF -> House Of Tudor # Elizabeth I - CHILD_OF -> Henry Viii # and more... ファイナルレトリーバー 冒頭で述べたように、非構造化リトリーバーとグラフ リトリーバーを組み合わせて、LLM に渡される最終的なコンテキストを作成します。   def retriever(question: str): print(f"Search query: {question}") structured_data = structured_retriever(question) unstructured_data = [el.page_content for el in vector_index.similarity_search(question)] final_data = f"""Structured data: {structured_data} Unstructured data: {"#Document ". join(unstructured_data)} """ return final_data  Python を扱っているので、f 文字列を使用して出力を連結するだけです。  RAGチェーンの定義 RAG の検索コンポーネントを正常に実装しました。次に、統合ハイブリッド リトリーバーによって提供されるコンテキストを活用して応答を生成するプロンプトを導入し、RAG チェーンの実装を完了します。   template = """Answer the question based only on the following context: {context} Question: {question} """ prompt = ChatPromptTemplate.from_template(template) chain = ( RunnableParallel( { "context": _search_query | retriever, "question": RunnablePassthrough(), } ) | prompt | llm | StrOutputParser() ) 最後に、ハイブリッド RAG 実装をテストします。   chain.invoke({"question": "Which house did Elizabeth I belong to?"}) # Search query: Which house did Elizabeth I belong to? # 'Elizabeth I belonged to the House of Tudor.' また、クエリ書き換え機能も組み込んでおり、RAG チェーンがフォローアップの質問を許可する会話設定に適応できるようにしています。ベクター検索とキーワード検索の方法を使用しているため、検索プロセスを最適化するにはフォローアップの質問を書き換える必要があります。   chain.invoke( { "question": "When was she born?", "chat_history": [("Which house did Elizabeth I belong to?", "House Of Tudor")], } ) # Search query: When was Elizabeth I born? # 'Elizabeth I was born on 7 September 1533.'  「When was she born?」が最初に「When was Elizabeth I born?」に書き換えられたことがわかります。その後、書き換えられたクエリを使用して、関連するコンテキストを取得し、質問に答えます。 ナレッジグラフを簡単に作成 LLMGraphTransformer の導入により、ナレッジ グラフの生成プロセスがよりスムーズかつアクセスしやすくなり、ナレッジ グラフが提供する深みとコンテキストを使用して RAG アプリケーションを強化したい人にとって、より簡単に実行できるようになります。これはほんの始まりに過ぎず、今後も多くの改善が計画されています。  LLM を使用したグラフ生成についてのご意見、ご提案、ご質問がございましたら、お気軽にお問い合わせください。 コードは以下から入手可能です  。 GitHub

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

このオーディオは、ストーリーの元の言語で制作されています。

RAG アプリケーションの精度を解き放つ: Neo4j と LangChain によるナレッジグラフの活用

About Author

コメント

ラベル

この記事は

Related Stories

海を航海する: データレイクを使用した本番環境レベルの RAG アプリケーションの開発

暗号通貨の成長: 効果的なユーザーペルソナの作成

ユニークなエコシステムを支えるビットコインUTXOのモデル

AI/ML データレイクのリファレンスアーキテクチャを構築するためのアーキテクトガイド

海を航海する: データレイクを使用した本番環境レベルの RAG アプリケーションの開発

暗号通貨の成長: 効果的なユーザーペルソナの作成

ユニークなエコシステムを支えるビットコインUTXOのモデル

AI/ML データレイクのリファレンスアーキテクチャを構築するためのアーキテクトガイド

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

RAG アプリケーションの精度を解き放つ: Neo4j と LangChain によるナレッジ グラフの活用

About Author

コメント

ラベル

この記事は

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

RAG アプリケーションの精度を解き放つ: Neo4j と LangChain によるナレッジグラフの活用