Izgalmas volt felébredni erre a tweetre: amikor az egyik legnagyobb és legbefolyásosabb AI cég fogad De mi az? miért használják? és ezt fontolóra kell vennie az AI-alkalmazásoknál? Technológia Feltételezem, hogy a közönség itt már ismeri a generatív AI alapvető fogalmát. Ami azonban kevésbé nyilvánvaló, az az, hogy az új modell kiadások buborékos üteme elnyomja még a legokosabb felhasználókat is, nem is beszélve a mágikus rendszer álmáról, hogy pontosan irányítsa a lekérdezéseket ebben a robbanásveszélyes ökoszisztémában. Miért nem tudjuk ezt a mágikus rendszert: mert a teljesítmény rendkívül szubjektív, különösen olyan forgatókönyvekben, ahol megpróbálsz egy LLM-t az üzleti folyamatokhoz vagy a munkafolyamatokhoz igazítani. Vegyünk egy példát a Digits-ből, egy fintech platformtól, amely automatizálja a tranzakciós lekérdezéseket: A rutin egyensúlyellenőrzésekhez egy könnyű modell, mint Claude 4.5 Haiku, rendkívül éles, tényleges válaszokat nyújt 50 szó alatt; tökéletes a nagy mennyiségű, időérzékeny támogatási jegyekhez, ahol a rövidlátás megduplázza a feldolgozást. De a potenciális csalásokkal kapcsolatos viták eséséhez ugyanaz a modell az empátiára esik (ezek számára), robotnak hangzik A mai napig a legtöbb meglévő LLM útválasztási rendszer optimalizálja az akadémiai teljesítményt - például vagy Ez nem tükrözi a felhasználók és a fejlesztők által a valós alkalmazásokban hozott zavaros, szubjektív és feladat-specifikus ítéleteket.A valós világban kevésbé a referenciaértékekről van szó, hanem olyan dolgokról, mint a domain-specifikus pontosság, sebesség és preferencia illeszkedés. , egy könnyű (1,5B paraméter) útválasztási modell, amely lehetővé teszi a A modell útválasztási döntéseinek preferenciái MMLSZ GPQA Az Arch-Router Az Ön Az Arch-Router Olyan intuitív kategóriákat határoz meg, mint az „utazási foglalás” vagy a „képszerkesztés”, és az Arch-Router az egyes lekérdezéseket az Ön által megtalált modellre irányítja, hogy a saját tapasztalata és értékelése alapján a legjobban működjenek. a merev benchmark-beállított megközelítésektől eltérően az Arch-Router átlátszó, új modellekhez alkalmazkodó és gyors – az útválasztási döntésenként mindössze 50 ms sebességgel –, miközben még a sajátos LLM-eket is felülmúlja, mint a Claude Sonnet 3.7 és a GPT-4o a valós beszélgetési adatok értékelésében. What is Arch-Router? Mint fejlesztők, csak akkor igazán tudja, hogy melyik LLM működik a legjobban az Ön használati esete számtalan próbát és hibát.. új megközelítést kínál az LLM útválasztására, a gyakorlati, szubjektív preferenciákra összpontosítva - mint például a domain szakértelem (pénzügy, kódolás, orvosi) vagy konkrét intézkedések (összefoglalás, képgyártás). Ez két dolgot tesz: Preference-aligned routing routing policy Megszakítja a lekérdezési teret a domain szinten (például pénzügyi, orvosi) és szükség esetén a finomabb cselekvési szinten (például „összefoglalás”, „SQL generálása”). Térképezze fel az egyes szabályzatokat a megbízható modellre az adott munkadarabhoz. Az LLM egy 1,5 milliárd paraméteres modell, amely a preferenciákkal összhangban álló keretrendszer körül épül. Ahelyett, hogy szabályokat kódolna, vagy egy fekete dobozú routerre támaszkodna, az Arch-Router átadja az útválasztási politikáját, és a többit elvégzi. A kompakt mérete ellenére a modell felülmúlja a GPT-4o, Claude és Gemini családok nagyobb, szabadalmaztatott LLM-jeit. alatt míg a versenyző LLM-k általában körülbelül 1 s-t költenek egy útvonal kiválasztására (mint az 1. ábra).Az eredmény: a legmodernebb pontosság a késleltetés és a bevezetés költségeinek egy része. Az Arch-Router 50ms (p50), 75ms (p99) Az Arch-Router How does it work? Az Arch-Router két fő koncepciót vezet be: Domain – a kérelem magas szintű tematikus kategóriája vagy tárgya (pl. jogi, egészségügyi, programozási). Akció – a felhasználó által végrehajtani kívánt művelet konkrét típusa (pl. összefoglalás, kódgenerálás, foglalási megbeszélés, fordítás). Mind a tartomány, mind a cselekvési politikák az előnyben részesített modellekhez vagy modellváltozatokhoz kapcsolódnak. A következtetés idején az Arch-Router elemzi a bejövő utasítást, hogy a tartományát és a cselekvést a szemantikus hasonlóság, a feladatmutatók és a kontextusjelzők segítségével következtetje le. Ezután a felhasználó által meghatározott útválasztási preferenciákat alkalmazza, hogy kiválassza a legmegfelelőbb modellt a kérés kezelésére, amint azt a 2. ábra mutatja. Performance Gyors és pontos, szinte azonnali (50 ms) modell kiválasztása, miközben magasabb pontszámot ér el, mint a legjobb szabadalmaztatott LLM-k az útválasztási teljesítményen.. Ez összhangban van az Ön preferenciáival, különböző egyének vagy csapatok saját útválasztási politikájukat dolgozhatják ki, így minden lekérdezés a leginkább megbízható modellre esik. És rugalmas és alkalmazkodó marad: nézzen egy új modellt, amit kipróbálni szeretne, vagy adjon hozzá egy feladatot a termékéhez? Egyszerűen frissítse az útválasztási politikafájlt, és használja azt – nincs költséges átképzés, nincs csővezeték újjáépítése. Íme néhány statisztika: Arch-Router 50 ms medián útválasztási idő (75 ms p99-en) Speed: 93.06% útválasztási pontosság a megadott referenciamutatónál Accuracy : $0.00132 routing lekérdezésenként Cost *: Proprietáris útválasztók átlagosan 1000ms+ útválasztási idő akár $5 per útválasztási lekérdezés (GPT-4o) Comparison Ready to dive deeper? Ez a blogbejegyzés megragadja a felületet, hogy mit és hogyan kell használni az Arch-Routert; a teljes történet a nyílt forráskódú halomban él: Kutatási tanulmány - Részletes módszertan, referenciamutatók és ablációs tanulmányok Arch-Router gyűjtemény - Arch-Router-1.5B a Hugging Face-tól Arch: Egy modellalapú proxy szerver az ügynökök számára - gyorsabban mozog az AI-ban végzett vízvezeték-munkák leadásával, és több időt tölt az üzleti munkafolyamatok modellezésével bármilyen nyelven vagy keretrendszerben. Kutatási papír Arch-Router gyűjtemény Arch Látogasson el a raktárba a végrehajtási útmutatókhoz, hozzájáruljon a fejlesztésekhez vagy jelentéshez. Üdvözöljük a közösségi hozzájárulásokat az LLM-alapú ügynökök előmozdításához. És ha tetszik, amit építettünk, ne felejtsd el ⭐️ a projektet.