私はある週末に座って、私はようやく研究アシスタントエージェントの適切なプロトタイプを構築するつもりだと確信したことを覚えています。 何一つファンタジーなことはなく、PDFを読み、キー情報を抽出し、たぶんいくつかのフォローアップの質問に答えることができます。 代わりに、私は2日間のより良い部分を半文書化されたリポー、死んだGitHubの問題、曖昧なブログ投稿の間でジャンプすることに費やしました。一つのツールは、それが8ヶ月で更新されていないことに気づくまで有望に見えました。 しかし、私を止めさせたのは、挫折ではなく、好奇心でした。 輝かしいVCマップに現れるものではなく、静かにインストールするもの、あなたのバックに保管し、誓います。 実際の建築家が使用するツールは何ですか? その検索によって、私は驚くほど強力なオープンソースライブラリのセット - 軽量で信頼性の高いツール、および開発者を念頭に置いて構築されました。 だから、あなたがエージェントを実際に働かせようとしているなら、これはあなたのためにあります。 So, you’re ready to build AI agents? AIエージェントを構築する準備はできていますか? 素晴らしい あなたは尋ねているかもしれません: ♪ ♪ ♪ ♪ 人々は音声エージェントを構築するために何を使用しますか? ドキュメントパッシングのための最高のオープンソースツールは何ですか? すべてにベクターDBをタップすることなく、エージェントメモリをどのように与えるのですか? このガイドは、そこにすべてをカバーしようとしません - それは意図的です. それは私が実際に使用してきたツールのコレクションリストであり、私のスタックに保管され、実際のエージェントのプロトタイプを構築するときに戻りました. デモでクールに見えたり、あらゆるハイプトレードに現れたのではなく、失われずに「アイデア」から「働くもの」に移行するのを助けてくれたもの。 以下は、カテゴリに分割されたスタックです。 ♪ ♪ 建築・オーケストラリング・エージェントのためのフレームワーク これらのツールは、あなたのエージェントの論理を構築するのに役立ちます - 何をすべきか、いつそれをすべきか、そしてツールをどのように処理するか。 2. Computer and Browser Use このカテゴリには、エージェントがボタンをクリックし、フィールドを入力し、データを削除し、一般に人間のようにアプリやウェブサイトを制御するツールが含まれています。 3. Voice エージェントが話すか、聴く必要がある場合、これらのツールはオーディオ側を処理します - スピーチをテキストに変換し、再び戻します. ハンドフリーの使用ケースや音声ファーストエージェントに有用です. いくつかはリアルタイムの会話にも十分です。 4. Document Understanding 実際のデータの多くは、PDF、スキャン、またはその他の混乱したフォーマットで生存します これらのツールは、エージェントが実際にそのコンテンツを読み、そのコンテンツを意味するのを助けます - 請求書、契約、または画像ベースのファイルであろうと。 5. Memory 単発のタスクを超えるために、エージェントはメモリを必要とします. これらのライブラリは、ちょうど起こったことを覚え、あなたがそれ以前に言ったこと、または長期的なプロフィールを構築するのに役立ちます。 6. Testing and Evaluation これらのツールは、シナリオを実行し、インタラクションをシミュレーションし、エージェントの行動が有意義かどうかをチェックすることで、生産に到達する前にエラーを捕まえるのに役立ちます。 7. Monitoring and Observability エージェントがライブになったら、エージェントが何をやっているのか、どのくらいうまく機能しているのかを知る必要があります これらのツールは、使用状況、デバッグの問題を追跡し、コストや遅延の影響を理解するのに役立ちます。 8. Simulation エージェントを野生に投げ込む前に、安全でサンドボックスの世界でテストしてください. シミュレート環境では、実験し、意思決定の論理を改良し、制御された設定でエッジケースを見つけることができます。 9. Vertical Agents すべてをゼロから構築する必要はありません。これらは、コード、リサーチ、または顧客サポートなどの特定の仕事のために構築された完成したエージェントです。 建築・オーケストラリング・エージェントのためのフレームワーク 実際に作業を完了するエージェントを構築するには、ワークフロー、メモリ、およびツール統合を操作するための何かが必要です。これらのフレームワークは、エージェントに目標を理解し、計画を作成し、それに従うために必要な構造を提供します。 ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ CrewAI - 複数のエージェントが一緒に作業するオーケストラで、調整と役割ベースの行動を必要とするタスクに最適です。 Phidata - メモリ、ツールの使用、長期的な相互作用に焦点を当て、記憶と適応を必要とするアシスタントに最適です。 Camel - 複数のエージェントのコラボレーション、シミュレーション、タスクの専門化のために設計されています。 AutoGPT — 複雑なワークフローを計画と実行のループで自動化します. 独立して実行する必要があるエージェントに最適です。 AutoGen - エージェントが複雑な問題を解決するために互いにコミュニケーションをとることができます。 SuperAGI - 自動エージェントを迅速に構築および配送するためのストリームライン設定。 Superagent - 柔軟なオープンソースツールキットで、カスタムAIアシスタントを作成します。 LangChain & LlamaIndex - メモリ、リクエスト、およびツールチェーンを管理するためのツールです。 クルー フィギュア カメル 自動車 自動車 スーパー スーパージャー ラングチェーン ラマインデックス 2.コンピュータとブラウザの使用 あなたのエージェントが考えることができたら、次のステップはそれを助けることです。 それは、コンピュータやウェブと人間のやり方で相互作用すること、ボタンをクリックし、フォームを記入し、ページをナビゲーションし、コマンドを実行することを意味します。これらのツールは、推論と行動の間のギャップを橋渡し、エージェントが現実世界で動作させます。 ドー ♪ ♪ ♪ ♪ ♪ ♪ ♪ Open Interpreter — 自然言語をマシン上で実行可能なコードに翻訳します. ファイルを移動したり、スクリプトを実行したりしたいですか? それを説明するだけです。 Self-Operating Computer - エージェントにデスクトップ環境の完全なコントロールを提供し、人としてあなたのOSと相互作用することを可能にします。 Agent-S は、AI エージェントが実際のユーザーのようにアプリ、ツール、インターフェイスを使用できる柔軟なフレームワークです。 LaVague - ウェブエージェントがサイトをナビゲーションし、フォームを記入し、リアルタイムで意思決定を行うことができます - ブラウザのタスクを自動化するのに最適です。 Playwright — ブラウザ間のウェブアクションを自動化します。 テストまたはユーザーフローのシミュレーションのために便利です。 Puppeteer — Chrome または Firefox を制御するための信頼性の高いツール. フロントエンドの行動をスキャンし、自動化するのに最適です。 オープン通訳 自作コンピュータ エージェント ラヴァー プレイヤー 人形 3.声 音声は、AIエージェントと相互作用する最も直感的な方法の1つです. これらのツールは、音声認識、音声合成、リアルタイムの相互作用を処理し、エージェントをより人間的に感じさせます。 Speech2speech ♪ ♪ ♪ ♪ Ultravox - リアルタイムの音声会話をスムーズに処理するトップレベルのスピーチ対音声モデル。 Moshi - スピーチ対スピーチタスクのためのもう一つの強力なオプション ライブボイスインタラクションのための信頼性がありますが、Ultravoxはパフォーマンスの利点を持っています。 Pipecat — 音声対応エージェントを構築するためのフルスタックフレームワーク. Includes support for speech-to-text, text-to-speech, and even video-based interactions. ウルトラボックス モシ ピッチャー Speech2text ♪ ♪ ♪ ♪ Whisper - OpenAIのスピーチテキストモデル - 複数の言語の翻訳とスピーチ認識に最適です。 Stable-ts — Whisper をより開発者フレンドリーに包み込み、タイムスタンプとリアルタイムのサポートを追加し、会話エージェントに最適です。 Speaker Diarization 3.1 — Pyannoteのモデルで、誰がいつ話しているかを検出します。 うさぎ 安定 スピーカーディアリゼーション 3.1 Text2speech ♪ ♪ ♪ ♪ ChatTTS — 今まで見つけた最高のモデル. それは速く、安定しており、ほとんどの用例のために生産準備ができています。 ElevenLabs (Commercial) - オープンソースよりも品質が重要な場合、それは非常に自然な音を提供し、複数のスタイルをサポートします。 Cartesia (Commercial) - あなたがオープンモデルが提供できるものを超える表現的な、高信頼性の音声合成を探している場合、もう一つの強力な商用オプション。 チャット エレベーター カルテシア Miscellaneous Tools これらは一つのカテゴリーにきれいに適合しませんが、音声能力のエージェントを構築または精製するときに非常に役に立ちます。 ♪ ♪ ♪ Vocode は、音声で動作する LLM エージェントを構築するためのツール キットで、音声の入力/出力を言語モデルに簡単に接続できます。 Voice Lab - 音声エージェントのテストと評価のためのフレームワーク. Useful for calling in the right prompt, voice persona, or model setup. VOCODE ボイスラボ 4.文書理解 ほとんどの有用なビジネスデータはまだ構造化されていないフォーマット(PDF、スキャン、画像ベースのレポート)で生きています これらのツールは、脆弱なOCRパイプラインを必要とせずに、エージェントが読み取り、抽出し、その混乱を理解するのに役立ちます。 ♪ ♪ ♪ Qwen2-VL - Alibaba の強力なビジョン言語モデル. GPT-4 および Claude 3.5 Sonnet は、画像とテキストを組み合わせるドキュメントタスクで優れている - 複雑で現実世界のフォーマットを扱うのに最適です。 DocOwl2 は、OCR なしでドキュメントを理解するために作られた軽量な多形モデルで、構造と意味を混乱した入力から抽出するための迅速で効率的で驚くほど正確です。 QWEN2VL ドコモ2 5.記憶 メモリがなければ、エージェントはループに閉じ込められており、それぞれのインタラクションを最初のもののように扱います。これらのツールは、過去の会話を思い出し、好みを追跡し、継続性を構築する能力を与えます。 ♪ ♪ ♪ ♪ Mem0 - あなたのエージェントが以前のインタラクションに適応することを可能にする自己改善メモリ層。 Letta(以前のMemGPT) - LLMエージェントに長期的なメモリとツールの使用を追加します。それを記憶し、推論し、進化する必要があるエージェントのためのスタックアップとして考えてください。 LangChain - 会話履歴とユーザーコンテキストを追跡するためのプラグ&プレイメモリコンポーネントを含む - 複数のターンにわたって接続する必要があるエージェントを構築する際に便利です。 メモ Letta(かつてのMEMGPT) ラングチェーン 6.テストと評価 あなたのエージェントが単なるチャット以外のことを始めるにつれて - ウェブページをナビゲーションし、決定を下し、大きな声で話す - あなたは、彼らがエッジケースに対処する方法を知る必要があります これらのツールは、あなたのエージェントがさまざまな状況でどのように振る舞うかをテストし、バグを早期に捕らえ、物事が崩壊する場所を追跡するのに役立ちます。 ♪ ♪ ♪ ♪ eeVoice Lab - 音声エージェントをテストするための包括的なフレームワークで、エージェントの音声認識と反応が正確で自然であることを保証します。 AgentOps - AI エージェントを追跡し、ベンチマークするためのツールセットで、問題を特定し、ユーザーに影響を与える前にパフォーマンスを最適化できます。 AgentBench - ウェブブラウジングからゲームまで、さまざまなタスクや環境でLLMエージェントを評価するためのベンチマークツールで、多様性と効率性を確保します。 ラボラボ エージェント エージェントベンチ 7. 監視と観察性 あなたのAIエージェントがスケールでスムーズに効率的に動作するようにするには、パフォーマンスとリソースの使用に対する可視性が必要です これらのツールは、必要な洞察を提供し、エージェントの行動を監視し、リソースを最適化し、ユーザーに影響を与える前に問題を把握することができます。 ♪ ♪ ♪ openllmetry - OpenTelemetryを使用してLLMアプリケーションのエンド-to-エンド観測性を提供し、エージェントのパフォーマンスの明確なイメージを提供し、迅速にトラブルシューティングと最適化を支援します。 AgentOps - エージェントのパフォーマンス、コスト、ベンチマークを追跡する包括的なモニタリングツールで、エージェントが効率的で予算範囲内であることを確認するのに役立ちます。 オープンメートル エージェント 8.シミュレーション 展開前に現実世界の環境をシミュレートすることは、ゲームを変えるのに役立ちます。これらのツールにより、エージェントがライブ環境で意図しない結果のリスクなしに相互作用し、学び、意思決定を行うことができる制御された仮想空間を作成できます。 ♪ ♪ ♪ ♪ ♪ ♪ AgentVerse - さまざまなアプリケーションやシミュレーションで複数のLLMベースのエージェントの展開をサポートし、さまざまな環境で効果的に機能します。 Tau-Benchは、小売や航空会社などの特定の業界におけるエージェントとユーザーの相互作用を評価し、ドメイン特有のタスクのスムーズな処理を確保するベンチマークツールです。 ChatArenaは、エージェントが相互作用する複数のエージェント言語ゲーム環境で、エージェントの行動を研究し、安全でコントロールされた空間でコミュニケーションパターンを磨くのに最適です。 AI Town - AIキャラクターが社会的に相互作用し、意思決定をテストし、現実世界のシナリオをシミュレートし、エージェントの行動を調節するのに役立つ仮想環境。 Generative Agents は、複雑な行動をシミュレートする人間のようなエージェントを作成することに焦点を当てたスタンフォードのプロジェクトで、社会的文脈における記憶と意思決定のテストに最適です。 エージェント ベンチ チャート AIタウン ジェネレーションエージェント 9. 垂直エージェント 垂直エージェントは、特定の産業における特定の問題を解決したり、タスクを最適化するために設計された専門ツールです。これらのエコシステムが成長している一方で、私が個人的に使用して特に役に立つと考えたいくつかのツールがあります。 Coding: ♪ ♪ ♪ ♪ ♪ OpenHands - AI で動作するソフトウェア開発エージェントのためのプラットフォームで、コード化タスクを自動化し、開発プロセスを加速するように設計されています。 aider - ターミナルと直接統合するカップルプログラミングツールで、AIコパイロットを提供して、あなたのコーディング環境をサポートします。 GPTエンジニア - 自然言語を使用してアプリケーションを構築し、あなたが望むものを説明し、AIは必要なコードを明確化し生成します。 screenshot-to-code - スクリーンショットをHTML、Tailwind、React、またはVueを使用して完全に機能するウェブサイトに変換し、デザインアイデアをすぐにライブコードに変換するのに最適です。 オープンハンド 助ける GPTエンジニア スクリーンショット-to-code Research: ♪ ♪ GPT Researcher - 包括的な研究を行い、データを分析し、レポートを書き、研究プロセスをスムーズにします。 GPT研究者 SQL: ♪ ♪ Vanna は、自然言語のクエリを使用して SQL データベースと相互作用し、複雑な SQL コマンドは不要で、質問するだけで、Vanna はデータを取得します。 バナナ 結論 研究アシスタントを構築するための初期の試みを反省すると、プロジェクトは混乱に終わった――時代遅れのコード、半焼きツール、およびPDFのような単純なものと闘うシステムだったことがわかる。 しかし、矛盾することに、それが私が最も学んだ場所です。 それは完璧なツールを見つけることではなく、機能するものに固執し、それをシンプルに保つことでした。その失敗は、最も信頼できるエージェントが実践的でシンプルなスタックで構築されていることを教えてくれました - すべての明るい新しいツールを追いかけることではありません。 成功したエージェント開発には、車輪を再発明する必要はありません。 仕事に適したツールを選択し、それらを慎重に統合し、プロトタイプを洗練することです。ワークフローの自動化、音声エージェントの構築、または文書の解析に関係なく、よく選ばれたスタックはプロセスをよりスムーズで効率的にすることができます。 だから、始めて、実験し、好奇心があなたを導いてくれます 生態系は進化しており、可能性は無限です。 もっと頻繁に聞きたいですか? 私とLinkedInでつながってください! なんか! Linkedinで私とつながる Linkedinで私とつながる シェア 行動可能な洞察、ヒント、およびアップデートは、貴重なエラーを回避し、AIの世界で最前線に留まるのに役立ちます。 日常 あなたはテクノロジーの専門家で、書くことによってあなたの視聴者を成長させたいですか? 私のニュースレターをお見逃しなく! アクティブなコピーライティングと視聴者構築戦略で包まれており、何百人もの専門家が立ち上がり、成長を加速させることができました。 わたし テクノロジー Audience Accelerator テクノロジー Audience Accelerator