paint-brush
RAG Revisitedpodľa@docligot
418 čítania
418 čítania

RAG Revisited

podľa Dominic Ligot4m2024/10/03
Read on Terminal Reader

Príliš dlho; Čítať

Je čas prehodnotiť inžinierstvo AI a posunúť sa za módne trendy. RAG má svoje miesto v súprave nástrojov, ale nie je to všeliek.
featured image - RAG Revisited
Dominic Ligot HackerNoon profile picture
0-item

RAG. RAG. RAG.


V pretekoch o implementáciu umelej inteligencie do obchodných procesov a produktov sa objavil znepokojujúci trend: posadnutosť Retrieval-Augmented Generation (RAG). Zatiaľ čo RAG – metóda, ktorá spája veľké jazykové modely (LLM) s externým získavaním vedomostí – nepopierateľne otvorila nové cesty pre interakciu so znalosťami, príliš veľa odborníkov s ňou bojuje.


Je načase, aby sme preformulovali rozhovor o implementácii AI, uznali úskalia nadmerného spoliehania sa na RAG a preskúmali alternatívne prístupy, ktoré môžu byť vhodnejšie, nákladovo efektívnejšie a elegantnejšie.

RAG Mania: Overkill pre mnoho prípadov použitia

RAG sa stal bežnou technikou pre mnohých inžinierov AI, ktorí chcú zlepšiť presnosť jazykových modelov poskytnutím externého kontextu. Predpoklad je dostatočne jednoduchý: nahraním obrovského množstva textu do vektorových obchodov môžu tieto systémy AI vyhľadať relevantné dokumenty, získať údaje a skombinovať ich s generatívnymi schopnosťami jazykového modelu, aby vytvorili presnejšie odpovede.


Nadšenie pre RAG však viedlo k explózii implementácií, ktoré preceňujú jeho užitočnosť. Nie je nezvyčajné vidieť, ako inžinieri ukladajú milióny dokumentov do vektorových obchodov, čím zvyšujú náklady na cloudové úložisko a spracovanie bez toho, aby pochopili, či prípad použitia vôbec vyžaduje takú zložitosť. Mnohí neuvažujú nad tým, či môže stačiť jednoduchšie riešenie, alebo či je RAG pre ich konkrétny problém vôbec potrebná.

Úskalia naivných implementácií RAG

A čo je horšie, väčšina inžinierov pristupuje k implementácii RAG s naivným myslením, pričom prehliadajú dlhodobé náklady a záťaž na údržbu. Veria, že nahraním každého kúsku textu do vektorového obchodu bude AI nejako inteligentnejšia. Ale častejšie ako ne, táto prax robí opak. S vektorovými obchodmi preplnenými nadbytočnými a nepotrebnými dokumentmi sú LLM zavalené získavaním údajov, ktoré nepridávajú hodnotu. Výsledkom sú pomalšie časy odozvy, vyššie náklady a menej efektívne riešenia.


RAG funguje najlepšie, keď sa používa na rozšírenie presných a relevantných znalostí, nie vtedy, keď sa používa ako univerzálny nástroj pre akýkoľvek dostupný výpis dokumentov. Overengineering prostredníctvom RAG tiež vedie k nedostatočnému využívaniu ďalších kľúčových schopností AI a prílišnému zameraniu sa na vyhľadávanie, keď by sa mnohé problémy dali vyriešiť jednoduchšou logikou a štruktúrou.

Nie každý problém potrebuje RAG

Tu je pravda: Nie všetky prípady použitia vyžadujú nastavenie RAG. Ak je úloha úzka a dobre definovaná – napríklad odpovedanie na často kladené otázky, otázky zákazníckej podpory alebo zapojenie sa do štruktúrovaného dialógu – môže stačiť jednoduchá vyhľadávacia tabuľka alebo graf znalostí. Nie je potrebné vynakladať réžiu na prevádzkovanie obrovského vektorového obchodu a modelu s mnohými miliónmi parametrov, keď je možné riešenie vybudovať pomocou systému založeného na pravidlách alebo dokonca rámca agentov.


Horlivosť používať RAG vychádza z myšlienky, že viac údajov znamená lepší výkon. V mnohých prípadoch však kvalita prevyšuje kvantitu. Jemne vyladený model s cielenými znalosťami alebo dokonca znalostný chatbot s možnosťami založenými na pravidlách môže fungovať lepšie bez toho, aby ste sa dotkli potrubia RAG. Rozhodnutie implementovať RAG by malo byť diktované zložitosťou úlohy, nie jej popularitou medzi nadšencami AI.

Prípad pre malých agentov s úzkymi znalosťami

Alternatíva k nafúknutým RAG systémom je často elegantnejšia a efektívnejšia: malí, špecializovaní agenti s obmedzenými, ale presnými znalosťami. Tieto prostriedky, keď sa používajú v tandeme, môžu prekonať jeden veľký model zaťažený terabajtmi textu. Každý agent môže byť navrhnutý tak, aby spracovával špecifické časti pracovného toku alebo reagoval na určité druhy dopytov, čo umožňuje modulárne a flexibilné systémy AI. To nielen znižuje náklady, ale tiež uľahčuje údržbu a škálovanie celého systému.



Predstavte si scenár, v ktorom je jeden agent zodpovedný za plánovanie, druhý za sumarizáciu a tretí za vykonávanie vyhľadávania na webe. Každý z týchto agentov môže spolupracovať a využívať iba znalosti, ktoré potrebujú, bez réžie monolitického systému. Nasadením mnohých malých modelov alebo agentov založených na logike môžu podniky získať presnejšie a rýchlejšie výstupy a zároveň výrazne znížiť náklady na spracovanie a ukladanie.

Nadmerné používanie LLM: Kedy bude fungovať jednoduchá logika

Nakoniec je tu nadmerné používanie LLM v scenároch, kde by stačila jednoduchá logika. LLM sú pozoruhodne dobré v chápaní a vytváraní prirodzeného jazyka, ale to neznamená, že by mali nahradiť všetky formy automatizácie. Mnohé úlohy – ako napríklad overenie údajov, vypĺňanie formulárov alebo generovanie štruktúrovaných správ – možno vykonať rýchlejšie a spoľahlivejšie pomocou základných skriptov, modulov pravidiel alebo deterministických systémov.


Hlavným príkladom je použitie LLM na aritmetickú úlohu alebo problém s triedením. Je to neefektívne a zbytočné. Nielenže to plytvá výpočtovými zdrojmi, ale tiež zvyšuje pravdepodobnosť chýb v prípadoch, keď by jednoduchá funkcia alebo algoritmus boli presnejšie. Dychtivosť zaviesť LLM pre všetko sa zmenila na syndróm „LLM kladivo hľadajúce klince“. Toto zneužitie vedie k nafúknutým očakávaniam a prípadnej dezilúzii, keď modely nefungujú podľa očakávaní v úlohách, na ktoré neboli navrhnuté.

Prehodnotenie inžinierstva AI

Je čas prehodnotiť inžinierstvo AI a posunúť sa za hranice módnych trendov. RAG má svoje miesto v súprave nástrojov, ale nie je všeliekom. Budúcnosť spočíva v nasadení správnych modelov pre správne úlohy – niekedy to znamená RAG, ale často to tak nie je. Vďaka podrobnému pochopeniu možností AI môžu inžinieri navrhnúť systémy, ktoré sú efektívnejšie, efektívnejšie a ľahšie sa udržiavajú.


O mne: 20+ ročný veterán kombinujúci dáta, AI, riadenie rizík, stratégiu a vzdelávanie. 4x víťaz hackathonu a sociálny vplyv od obhajcu údajov. V súčasnosti pracujeme na naštartovaní pracovnej sily AI na Filipínach. Viac o mne sa dozviete tu: https://docligot.com