導入 Google は Gemini File Search を発表し、専門家は、これは homebrew RAG (Retrieval Augmented Generation) の死因であると主張しています。その理由は、アプリの開発者は、もうチャンキング、埋め込み、ファイルストレージ、ベクトルデータベース、メタデータ、検索最適化、コンテキスト管理などについて心配する必要がないということです。 この記事では、Gemini File Search をテストし、能力、パフォーマンス、コスト、柔軟性、透明性の点で homebrew RAG システムと比較します。あなたはあなたの使用ケースのために教育された決定を下すことができます。 . my example app on GitHub について my example app on GitHub について こちらはオリジナル : Google announcement Google 広告 独自のエージェントRAGを構築 伝統的なRAG - A Refresher 伝統的なRAGのアーキテクチャは、いくつかの連続的なステップで構成されているように見えます。 ドキュメントは最初にクロックされ、埋め込み、ベクターデータベースに挿入されます。 ユーザー クエリは組み込まれ、関連するブランクを取得するためにベクトル DB 検索に変換されました。 そして最後に、元のユーザクエリと、検索されたブランク(コンテキストとして)は、AIモデルに送信され、ユーザのための答えを生成します。 エージェントRAG Agentic RAG システムのアーキテクチャは反射と反応ループを追加し、エージェントは結果が適切かつ完全かをチェックし、検索品質を満たすためにクエリを再書きします。 カメラマニュアルQ&A 古いフィルムカメラを使用することに興味のある新しい写真家はたくさんいます。彼らにとっての主な課題の1つは、多くの古いカメラは、フィルムをロードし、フィルムフレームカウンターをリセットするなど、基本的なものさえ、操作するユニークで時には奇妙な方法を持っていることです。 カメラマニュアルアーカイブには、9000の古いカメラマニュアル、ほとんどがスキャンされたPDFが収録されています。理想の世界では、カメラのためのいくつかをダウンロードし、それらを勉強し、それに慣れ、そしてそれで終わります。しかし、我々はすべて忍耐力も予備もない現代の人間です。 これは、エージェントのRAGの範囲に非常によく適合します。そして、古代のユーザーマニュアルから情報を探す必要がある多くの趣味(音楽楽器、Hi-Fi機器、古代車)に普遍的に適用されるだろうと私は考えます。 Homebrew RAG for PDF Q&A 私たちのRAGシステムは、今年初めに実装されたもので、 実質的なカスタマイズ: LLaMAIndex RAG ワークフロー LLaMAIndex RAG ワークフロー Qrrant vector database: good price-performance ratio. サポートメタデータ Mistral OCR API を使用して PDF を摂取する: イラストやテーブルを含む複雑な PDF ファイルを理解するための良好なパフォーマンス。 各PDFページの画像を保存するため、ユーザーはテキストの指示に加えて複雑なカメラ操作のグラフィックイラストに直接アクセスできます。 Agentic 検索の Google/Langchain 例に基づく反省と反応のエージェントループを追加します。 Google/Langchain エージェント検索の例 Multi-Modal LLMsとは? 2024年以来、マルチモダルLLMはすでに本当に良くなっています。明らかな代替アプローチは、ユーザークエリとすべてのPDFをLLMに送信し、答えを得ることでした。これは、ベクターDBやミドルウェアを維持する必要がないより簡単なソリューションです。 私たちの主な懸念はコストだったので、コスト計算と比較を行いました。そして短い答えは、RAGは、1日あたりのユーザークエリの数が10を超えると、より速く、より効率的で、より安価であるということです。 当時、それは、GoogleがGemini File Search を廃止するまで、 homebrew RAG が依然として重要であるという私たちの信念を確認しました。 ジェミニファイル検索 - An Example 私は、Google AI Studioの例に基づいて、カメラマニュアルQ&A使用ケースのためのサンプルアプリを作成しました。 ここでは、ユーザーインターフェイスとチャット・トレードのスクリーンショットです。 , GitHubのオープンソース GitHubのオープンソース Gemini File Search を使用して PDF で Q&A を示す例: https://github.com/zbruceli/pdf_qa https://github.com/zbruceli/pdf_qa ソースコードに関わる主なステップ: The main steps involved in the source code: ファイル検索ストアを作成し、さまざまなセッションで持続します。 複数のファイルを同時にアップロードし、Googleのバックエンドはすべてのクランキングと埋め込みを処理します。 さらに、クランキング戦略を変更し、カスタムメタデータをアップロードすることができます。 Standard Generation Query (RAG) を実行する: 舞台の裏で、それはエージェントであり、最終的な答えを生成する前に実際の結果の品質を評価することができます。 より多くの開発者情報 Gemini File Search API https://ai.google.dev/gemini-api/docs/file-search https://ai.google.dev/gemini-api/docs/file-search フィル・シュミット Phil Schmidt https://www.philschmid.de/gemini-file-search-javascript https://www.philschmid.de/gemini-file-search-javascript Gemini File Search の検索結果 開発者は、既存の埋め込み価格(1Mトークンあたり0.15ドル)に基づいて、インデックス時点で埋め込みを請求されます。 保管は無料です。 Query time embeddings は無料です。 収集されたドキュメントトークンは、通常のコンテキストトークンとして請求されます。 Embeddings 価格 コンテキストトークン では、どちらが良いのでしょうか。 ジェミニファイル検索はまだ比較的新しいので、私の評価は約1週間の初期テストに基づいています。 能力比較 Gemini File Search には、homebrew RAG システムのすべての基本的な機能があります。 Chunking(サイズと重複を設定できる) 組み込み Vector DB がカスタムメタデータ入力をサポート リトル 生産生産 そして、より高度な機能は、キャップの下にあります: リサイクル品質を評価するためのエージェント能力 今のところ、Googleファイル検索の出力はテキストに限定されている一方で、カスタマイズされたRAGはスキャンされたPDFから画像を返すことができます。 パフォーマンス比較 正確性:回収や生成の品質に明確な改善はありません。 Gemini File Search は、ベクトル DB と LLM が Google Cloud インフラストラクチャ内で「座っている」ので、少し速くなります。 コスト比較 最後に、Gemini File Search は、コストがかかる可能性のある完全なホストシステムです。 ホモブレイクシステムより less 文書の埋め込みは一度しか実行されず、100万トークンあたり0.15ドルがかかります。これはすべてのRAGシステムに共通する固定コストであり、文書Q&Aアプリケーションのライフサイクルを通して amortizedすることができます。 Gemini File Search は「無料」のファイルストレージとデータベースを提供しているので、これは Homebrew RAG システムの節約です。 入力トークンの量(質問とベクトル検索結果は文脈として)と出力トークンの量は、Gemini File Search と homebrew システムの間で比較可能であるため、推定コストはほぼ同じです。 調整とデバッグのための柔軟性と透明性 もちろん、ジェミニファイル検索は、埋め込みと推論のためのジェミニAIモデルとあなたを結婚させます。 Gemini File Search は、あなたの RAG システムを細かく調整する場合、いくつかのレベルのカスタマイズを提供します。例えば、アップロード中に chunkingConfig を定義して maxTokensPerChunk と maxOverlapTokens などのパラメータを指定し、カスタムMetadata をドキュメントにキー値のカップルを付加できます。 しかし、デバッグやパフォーマンス調節のためのジェミニファイル検索システムの内部の痕跡を持つことは不可能であるように見えます。 結論 Googleのジェミニファイル検索は、非常に魅力的な価格でほとんどのアプリケーションとほとんどの人に十分に良いです。それは非常に使いやすく、最小限のオペレーティングオーバーヘッドを持っています。それは迅速なプロトタイプとマッカップだけでなく、何千人ものユーザーを持つ生産システムにも十分に良いです。 しかし、あなたがまだ Homebrew RAG システムを検討するかもしれないいくつかのシナリオがあります。 あなたは、Googleがあなたの独占的なドキュメントをホストすることを信頼しません。 元のドキュメントからユーザーに画像を返す必要があります。 あなたは、どのLLMを埋め込みと推論に使用するか、どのようにクランキングを行うか、RAGの代理流量を制御する方法、および潜在的な回収品質の問題をデバッグする方法に関して完全な柔軟性と透明性を望んでいます。 だから、Gemini File Search を試してみて、自分で決めることができます。 遊び場として、あるいは使える あなたの使用例のためのあなたの発見について、以下のコメントをお願いします。 Google AI Studio my example code on GitHub Google AI スタジオ GitHub でのコード例