A fost emoționant să te trezești la acest tweet: când una dintre cele mai mari și mai influente companii AI pariază pe tine Dar ce este? de ce o folosesc? și ar trebui să luați în considerare acest lucru pentru aplicațiile dvs. AI? Tehnologia Presupun că publicul de aici este deja familiarizat cu conceptele de bază ale AI generative. ceea ce este mai puțin evident, cu toate acestea, este modul în care ritmul blistering al noilor lansări de modele copleșește chiar și cei mai pricepuți utilizatori, să nu mai vorbim de visul unui sistem magic pentru a direcționa cu precizie interogările prin acest ecosistem exploziv. De ce nu putem avea acest sistem magic: pentru că performanța este foarte subiectivă, mai ales în scenarii în care încercați să aliniați un LLM la procesele de afaceri sau fluxurile de lucru. Luați un exemplu de la Digits, o platformă fintech care automatizează interogările de tranzacționare: Pentru controalele de echilibru de rutină, un model ușor, cum ar fi Claude 4.5 Haiku, oferă răspunsuri clare, factuale în mai puțin de 50 de cuvinte; perfect pentru bilete de sprijin cu volum mare, sensibile la timp, în cazul în care scurtețea încalcă elaborarea. Dar pentru escaladările disputelor care implică fraudă potențială, același model cade plat (pentru ei) pe empatie, sunând robotic și detașat. Aici, direcționarea către un model mai Până în prezent, cele mai multe sisteme de rutare LLM existente sunt optimizate pentru performanța academică de referință - cum ar fi sau — care nu reflectă judecățile neclare, subiective și specifice sarcinilor pe care utilizatorii și dezvoltatorii le fac în aplicațiile din lumea reală.În lumea reală, este mai puțin despre scorurile de referință și mai mult despre lucruri precum acuratețea specifică domeniului, viteza și potrivirea preferințelor. , un model de rutare ușor (1,5B parametru) care vă permite să capturați Preferințe pentru deciziile de modelare a rutelor MMLU gpca Arhivă router dumneavoastră Arhivă router Definiți categorii intuitive, cum ar fi „rezervarea de călătorie” sau „editarea imaginilor”, iar Arch-Router redirecționează fiecare interogare la modelul pe care l-ați găsit pentru a funcționa cel mai bine – pe baza propriei experiențe și evaluări. Spre deosebire de abordările rigide de referință, Arch-Router este transparent, adaptabil la noile modele și rapid – clocking în la doar 50ms per decizie de rutare – în timp ce depășește chiar și LLM-urile proprietare, cum ar fi Claude Sonnet 3.7 și GPT-4o în evaluările noastre pe datele reale de conversație. What is Arch-Router? Ca dezvoltatori, numai tu știi cu adevărat care LLM funcționează cel mai bine pentru cazul tău de utilizare prin nenumărate încercări și erori. oferă o nouă abordare a rutării LLM, concentrându-se pe preferințele practice, subiective - cum ar fi expertiza domeniului (finanțe, codare, medicale) sau acțiuni specifice (rezumare, generarea de imagini). Acest lucru face două lucruri: Preference-aligned routing routing policy Împărțiți spațiul de interogare în politici la nivel de domeniu (de exemplu, finanțe, medicale) și, atunci când este necesar, la nivelul de acțiune mai fin (de exemplu, „rezumare”, „generare SQL”). Hartați fiecare politică la modelul exact în care aveți încredere pentru acea bucată de lucru. LLM este un model de 1,5 miliarde de parametri construit în jurul acestui cadru aliniat preferințelor. În loc să codezi reguli grele sau să te bazezi pe un router cu cutie neagră, îi dai lui Arch-Router politica de rutare și face restul. În ciuda dimensiunii sale compacte, modelul depășește LLM-urile proprietare mai mari din familiile GPT-4o, Claude și Gemini. sub în timp ce LLM-urile concurente petrec de obicei aproximativ 1 s doar pentru a alege o rută (așa cum se arată în Figura 1). Arhivă router 50ms (p50), 75ms (p99) Arhivă router How does it work? Arch-Router introduce două concepte cheie: Domeniul – categoria tematică de nivel înalt sau subiectul unei cereri (de exemplu, juridic, de sănătate, de programare). Acțiune – tipul specific de operațiune pe care utilizatorul dorește să îl efectueze (de exemplu, rezumare, generare de cod, rezervare de întâlnire, traducere). Atât politicile de domeniu, cât și politicile de acțiune sunt asociate cu modelele preferate sau variante de model. La momentul deducerii, Arch-Router analizează solicitarea de intrare pentru a deduce domeniul și acțiunea utilizând similitudinea semantică, indicatorii de sarcină și indicațiile contextuale. Performance este rapid și precis, alegând un model aproape instantaneu (50 ms), în timp ce scorurile sunt mai mari decât cele mai bune LLM-uri proprietare în ceea ce privește performanța de rutare.. Se aliniază cu preferințele dvs., indivizii sau echipele diferite își pot crea propriile politici de rutare, astfel încât fiecare interogare să ajungă pe modelul în care au cea mai mare încredere. Și rămâne flexibilă și adaptabilă: vedeți un nou model pe care doriți să-l încercați sau adăugați o sarcină la produsul dvs.? Arch-Router Timp mediu de rutare 50ms (75ms la p99) Speed: : 93,06% precizie de rutare pe indicele de referință furnizat Accuracy : $0.00132 per interogare de rutare Cost *: Routere proprietare în medie 1000ms+ timp de rutare cu până la $ 5 pe interogare de rutare (GPT-4o) Comparison Ready to dive deeper? Acest post de blog zgârie suprafața a ceea ce și cum să utilizați Arch-Router; povestea completă trăiește în stivă noastră open-source: Document de cercetare - Metodologie detaliată, criterii de referință și studii de ablație Colecția Arch-Router - Arch-Router-1.5B de la Hugging Face cu gguf Arch: Un server proxy nativ pentru agenți - mutați-vă mai repede prin descărcarea lucrărilor de alimentare cu apă în AI și petreceți mai mult timp modelând fluxurile de lucru ale afacerii în orice limbă sau cadru. Hârtie de cercetare Colecția Arch-Router Arhiva Vizitați depozitul nostru pentru ghiduri de implementare, contribuiți la îmbunătățiri sau raportați probleme. Salutăm contribuțiile comunității pentru a avansa agenții pe bază de LLM. Și hei, dacă vă place ceea ce am construit nu uitați să ⭐️ proiectul.