このツイートに目覚めるのはワクワクするものだった:最大かつ最も影響力のあるAI企業の1社があなたのビジネスに賭けたとき。 しかし、それは何ですか?なぜ彼らはそれを使用するのですか?そしてあなたはあなたのAIアプリケーションでこれを考慮すべきですか? 技術 私は、LLMsが何であるかについての基礎を省略するつもりです。私は、ここでの聴衆はすでに生成型AIのコアコンセプトに精通していると仮定しています。しかし、明らかでないことは、新しいモデルのリリースの急速なペースが、この爆発的な生態系を通じてクエリを正確にルーティングする魔法のシステムの夢を語ることはなく、最も賢いユーザーを圧倒していることです。 なぜ私たちはこの魔法のシステムを持っていけないのか: パフォーマンスは非常に主観的であるため、特にあなたがあなたのビジネスプロセスやワークフローにLLMを調節しようとしているシナリオで。 デジットから例をとり、FinTechプラットフォームでトランザクションクエリを自動化する: ルーチンバランスをチェックするために、Claude 4.5 Haikuのような軽量モデルは、50単語未満で鋭い、事実的な応答を提供します。 高ボリューム、タイムセンシティブなサポートチケットのための完璧な(例えば、短縮性が解説を妨げます。 しかし、潜在的な詐欺を含む紛争のエスカレーションのために、同じモデルは共感に(彼らのために)落ち、ロボット 今日まで、ほとんどの既存のLLMルーティングシステムは、学術ベンチマークのパフォーマンスのために最適化されています。 または — 実際の世界では、ベンチマークのスコアについてではなく、ドメイン特有の正確性、スピード、および好みの適合などの事柄についてより多く考えています。 軽量(1.5Bパラメータ)のルーティングモデルで、キャプチャを可能にします。 モデルルーティング決定の優先順位 MMLU GPQA ARCH Router 君の ARCH Router あなたは「旅行予約」や「画像編集」などの直感的なカテゴリーを定義し、Arch-Routerは、自分の経験と評価に基づいて、あなたが見つけたモデルにそれぞれのクエリをルーティングします。 What is Arch-Router? 開発者として、あなただけが、無数の試行錯誤を通じて、あなたの使用例に最も適したLLMを本当に知っています.. ベンチマークは、あなたのリアルな経験、専門的なタスク、またはユニークな期待を反映しません。 LLMのルーティングに新しいアプローチを提供し、実用的で主観的な好みに焦点を当て、ドメインの専門知識(財務、コード、医療)または特定のアクション(概要化、画像生成)など。 それは二つのことをする: Preference-aligned routing routing policy クエリ空間をドメインレベル(例えば、財務、医療)のポリシーに分割し、必要に応じて、より細かい部分のアクションレベル(例えば、「まとめ」、「SQL を生成」)に分割します。 それぞれのポリシーをその仕事のパーツで信頼できる正確なモデルにマップします。 LLMは、この優先順位に合わせたフレームワークを中心に構築された15億個のパラメータモデルです。ハードコードのルールやブラックボックスのルーターに頼る代わりに、Arch-Routerにルーティングポリシーを委ねて、その他を行います。コンパクトなサイズにもかかわらず、モデルは、GPT-4o、Claude、およびGeminiファミリーのより大きな独占的なLLMを上回っています。 以下 競合するLLMsは、通常、ルートを選択するために約1秒を費やします(図1に示されているように)。 ARCH Router 50ms (p50), 75ms (p99) ARCH Router How does it work? Arch-Router は 2 つの主要なコンセプトを導入します。 ドメイン - リクエストの高レベルのテーマカテゴリーまたは主題(例えば、法律、医療、プログラミング) アクション - ユーザーが実行したい特定の種類のアクション(例えば、概要化、コード生成、予約予約、翻訳) ドメインおよびアクションポリシーの両方は、好みのモデルまたはモデル変数と関連付けられています。 推論の時点で、Arch-Router はドメインおよびアクションを推論するために、ドメインおよびアクションを、セマンティックの類似性、タスク指標、および文脈的なヒントを使用して推論します。 Performance これは高速で正確で、ほとんど瞬時に(50 ms)モデルを選択し、ルーティングパフォーマンスで最高の独自のLLMよりも高いスコアを獲得します。それはあなたの好みと一致し、さまざまな個人やチームが独自のルーティングポリシーを作成することができますので、それぞれのクエリは最も信頼しているモデルに着陸します。そしてそれは柔軟で適応性があります:あなたが試したい新しいモデルを見るか、またはあなたの製品にタスクを追加しますか? 単にルーティングポリシーファイルを更新し、それを使用する - 費用の高い再訓練なし、パイプライン再構築なし。 Arch-Router 50ms メディアルーティング タイム (p99 で 75ms) Speed: : 93.06% Routing Accuracy on Provided Benchmark Accuracy : $0.00132 per routing query Cost *: Proprietary routers average 1000ms+ routing time with up to $5 per routing query (GPT-4o) Comparison Ready to dive deeper? このブログ記事は、Arch-Router を使用する方法と方法の表面をカットし、完全なストーリーはオープンソースのステックに生息しています。 研究論文 - 詳細な方法論、ベンチマーク、および抽象研究 Arch-Router コレクション - Arch-Router-1.5B from Hugging Face with gguf Arch: エージェント向けのモデルネイティブのプロキシサーバ - AI でのプランビングワークを解体し、あらゆる言語やフレームワークでビジネスワークフローをモデリングするのにより多くの時間を費やすことによって、より速く動く。 研究論文 Arch-Router コレクション ARCH 実装ガイドのためのリポジトリを訪問し、改善に貢献したり、問題を報告したりします。私たちは、LLMベースのエージェントを推進するためのコミュニティの貢献を歓迎します。