Bolo to vzrušujúce prebudiť sa k tomuto tweetu: keď jedna z najväčších a najvplyvnejších spoločností AI vsádza na vaše Ale čo je to? prečo ho používajú? a mali by ste to zvážiť pre svoje aplikácie AI? Technológie Predpokladám, že publikum tu je už oboznámené s základnými pojmami generatívnej AI. Čo je menej zrejmé, je však to, ako blikajúce tempo nových modelových vydaní prekonáva aj tých najšikovnejších používateľov, nehovoriac o sne o magickom systéme na presné smerovanie dotazov cez tento explodujúci ekosystém. Prečo nemôžeme mať tento magický systém: pretože výkon je vysoko subjektívny, najmä v scenároch, kde sa snažíte zosúladiť LLM s vašimi obchodnými procesmi alebo pracovnými postupmi. Vezmite si príklad z Digits, fintech platformy automatizujúcej transakčné dotazy: Pre rutinné kontroly rovnováhy, ľahký model ako Claude 4.5 Haiku dodáva ostré, faktické odpovede v menej ako 50 slovách; ideálny pre vysoký objem, časovo citlivé podporné lístky, kde krátkozrakosť naráža na vypracovanie. Ale pre eskalácie sporov zahŕňajúcich potenciálne podvody, rovnaký model padá plochý (pre nich) na empatiu, znie roboticky a oddelený. Tu, smerovanie na viac nuancií, ako je model GPT-5, K dnešnému dňu sa väčšina existujúcich systémov smerovania LLM optimalizuje pre akademickú výkonnosť - ako napríklad alebo — ktoré neodrážajú chaotické, subjektívne a špecifické úsudky, ktoré používatelia a vývojári robia v aplikáciách v reálnom svete.V reálnom svete je to menej o skóre referenčných hodnôt a viac o veciach, ako je presnosť, rýchlosť a preferencia. , ľahký (1,5B parameter) model smerovania, ktorý umožňuje zachytiť Preferencie pre modelové rozhodnutia o smerovaní MMLU GPQA Archový router Váš Archový router Môžete definovať intuitívne kategórie, ako je „cestovné rezervácie“ alebo „úprava obrázkov“, a Arch-Router smeruje každý dotaz do modelu, ktorý ste našli, aby fungoval najlepšie – na základe vašich vlastných skúseností a hodnotenia. Na rozdiel od rigidných prístupov na základe referenčných hodnôt je Arch-Router transparentný, prispôsobiteľný novým modelom a rýchly – hodí sa len 50 ms na rozhodnutie o smerovaní – zatiaľ čo prekonáva aj vlastné LLM ako Claude Sonnet 3.7 a GPT-4o v našich hodnoteniach skutočných konverzačných údajov. What is Arch-Router? Ako vývojári, len vy naozaj viete, ktorý LLM funguje najlepšie pre váš prípad použitia prostredníctvom nespočetných pokusov a chýb.. ponúka nový prístup k smerovaniu LLM, so zameraním na praktické, subjektívne preferencie - ako napríklad odborné znalosti v oblasti financií (financie, kódovanie, lekárstvo) alebo špecifické akcie (zhrnutie, tvorba obrázkov). To robí dve veci: Preference-aligned routing routing policy Rozdeľuje priestor dotazu na politiky na úrovni domény (napr. financie, zdravotníctvo) a v prípade potreby na úroveň akcií s jemnejším zrnkom (napr. „zhrnutie“, „vytvorenie SQL“). Mapujte každú politiku na presný model, ktorému dôverujete pre daný kus práce. LLM je model s 1,5 miliardami parametrov postavený okolo tohto preferenčného rámca. Namiesto hard-kódovania pravidiel alebo spoliehania sa na smerovač čiernej skrinky odovzdávate Arch-Routerovi svoju smerovaciu politiku a robí to ostatné. Napriek svojej kompaktnej veľkosti model prevyšuje väčšie vlastné LLM z rodín GPT-4o, Claude a Gemini. Okrem toho je rýchly, dodáva rozhodnutia o smerovaní od konca do konca v pod zatiaľ čo súťažiaci LLM zvyčajne trávia približne 1 s len na výber trasy (ako je znázornené na obrázku 1). Archový router 50ms (p50), 75ms (p99) Archový router How does it work? Arch-Router predstavuje dva kľúčové koncepty: Doména – tematická kategória na vysokej úrovni alebo predmet žiadosti (napr. právne, zdravotníctvo, programovanie). Akcia – konkrétny typ operácie, ktorú chce používateľ vykonať (napr. zhrnutie, generovanie kódu, rezervácia stretnutia, preklad). Obidve politiky domény a akcie sú spojené s preferovanými modelmi alebo variantmi modelu. V čase záveru Arch-Router analyzuje prichádzajúcu výzvu, aby odvodil svoju doménu a akciu pomocou sémantickej podobnosti, ukazovateľov úloh a kontextových náznakov. Potom aplikuje preferencie smerovania definované používateľom a vyberie model, ktorý je najvhodnejší na spracovanie požiadavky, ako je znázornené na obrázku 2. Performance je rýchly a presný, výber modelu takmer okamžitý (50 ms) a skóre vyššie ako najlepšie vlastné LLMs na výkon smerovania.. To sa zhoduje s vašimi preferenciami, rôzne jednotlivci alebo tímy môžu vytvoriť svoje vlastné smerovacie politiky, takže každá otázka pristane na modeli, ktorému dôverujú najviac. A zostáva flexibilný a prispôsobiteľný: pozrite sa na nový model, ktorý chcete vyskúšať, alebo pridať úlohu do svojho produktu? Jednoducho aktualizujte súbor smerovacej politiky a použite ho – bez nákladného preškolenia, bez rekonštrukcie potrubia. Arch-Router 50 ms mediánový čas smerovania (75 ms pri p99) Speed: : 93,06% presnosť smerovania na poskytnutú referenčnú hodnotu Accuracy : $0.00132 za routerový dotaz Cost *: Vlastné smerovače v priemere 1000ms + čas smerovania s až $ 5 za routing dotaz (GPT-4o) Comparison Ready to dive deeper? Tento blogový príspevok poškriaba povrch toho, čo a ako používať Arch-Router; celý príbeh žije v našom open-source stack: Výskumný dokument - Podrobná metodika, referenčné hodnoty a štúdie o ablácii Arch-Router Collection - Arch-Router-1.5B od Hugging Face s gguf Arch: Modely-native proxy server pre agentov - pohybovať rýchlejšie tým, že vyloží vodovodnú prácu v AI a stráviť viac času modelovanie obchodných pracovných postupov v akomkoľvek jazyku alebo rámci. Výskumný dokument Arch-router kolekcia Arch Navštívte náš archív pre implementáciu sprievodcov, prispieť k zlepšeniam alebo nahlásiť problémy.Vítame príspevky komunity na podporu agentov založených na LLM. A hej, ak sa vám páči to, čo sme vybudovali, nezabudnite na ⭐️ projekt.