Pred niekoľkými týždňami som sa prechádzal okolo Cieľ bol jednoduchý: Pochopiť jeho architektúru a zistiť, aké lekcie by som mohol získať a aplikovať z jeho Ako som preskúmal jeho architektúru, kopal do všetkého od pamäťovej štruktúry až po jej integrácie s rôznymi službami, nemohol som si nevšimnúť, ako sa nám to zdalo podobné. Otvorenie Kódovanie Mojou nádejou s týmto článkom je čerpať z mojich pozorovaní a ponúkať novú perspektívu o tom, ako by fyzický svet mohol informovať, ako si myslíme o budúcnosti AI. Informácie o OpenClaw Pre tých, ktorí nie sú oboznámení s OpenClaw, je to prenosný AI agent postavený a open-source Peter Steinberger byť váš osobný asistent. To môže bežať na ľubovoľnom počítači alebo serveri a je nakonfigurovaný tak, aby autonómne integrovať s rôznymi službami a vykonávať rôzne úlohy. Prekvapivo, to, čo robilo OpenClaw vyniknúť, nebol žiadny nový základný technologický prielom, ale skôr to, ako dobre sa mu podarilo integrovať rôzne kúsky toho, čo by spôsobilo, že systém AI sa cíti, pre nedostatok lepších slov, pocit: Integrácie s rôznymi systémami, ako je e-mail a Telegram, dlhodobá pamäť na pripomenutie informácií z minulých konverzácií, systém srdcového tepu na odpoveď na rôzne udalosti a oveľa viac. Výsledkom je agent AI, ktorý sa cíti postupne bližšie k Samanthe z sci-fi filmu . tu tu Zdieľané primáty Počas môjho tinkeringu s OpenClaw som si všimol niekoľko paralel medzi agentmi a nami. Čím viac som preskúmal jeho architektúru, tým viac každý aspekt, od komponentov, ktoré tvorili agent do jeho okolitého prostredia, začal pripomínať niečo známe. Paralelne s tým, ako existuje vedľa reálneho sveta, okrem toho, že tu sa fyzický a digitálny svet začali navzájom zrkadľovať čoraz viac rozmazanými spôsobmi. Podivné veci Vzostup nadol Ukazuje sa, že mnohé z tých istých primitívov, ktoré robia ľudské funkcie, sa objavujú aj v agentoch. Let me explain: Myslenie: Agent ekvivalent ľudského mozgu je veľký jazykový model (LLM). Jeho schopnosť uvažovať pochádza z pripojenia k LLM (v mojom prípade Claude). Zatiaľ čo ľudia majú mozgy, ktoré začínajú od nuly a vyvíjajú sa prostredníctvom skúseností, aby viedli uvažovanie, agenti sa spoliehajú na LLM, ktoré sú vopred vyškolené na mnohých petabajtoch dát, aby viedli ich rozhodovanie, pričom časť ich uvažovania je ovplyvnená skúsenosťami v reálnom čase uchovávanými prostredníctvom pamäte. Nie je iracionálne myslieť si, že v blízkej budúcnosti budeme mať samovoľných agentov, ktorí nepretržite škrabajú internet a berú zmyslovú spätnú väzbu z reálneho sveta ako viac údajov, ktoré sa majú vy Pamäť: Okrem uvažovania som si všimol niečo iné, čo bolo dosť zaujímavé - agent bol schopný pripomenúť dlhodobé spomienky, ale táto schopnosť zmizla s viacerými konverzáciami a spomienkami; to je zrejmé pre tých z nás hlboko v burinách na technických obmedzeniach LLM. Pre všetku presnosť matematiky a počítačovej vedy, agenti stále trpia nedostatkami pamäti a kontextových okien podobných tomu, ako sa ľudia snažia pripomenúť vzdialené spomienky - heck niektorí z nás nedokážu pripomenúť, čo sme jedli na raňajky včera. Jedlo: Rovnako ako ľudia potrebujú jedlo a vodu na prežitie a fungovanie, agenti potrebujú výpočet. Každá akcia, ktorú agent vykonáva, spotrebuje výpočtové zdroje, spolu s GPU, elektrinou a v konečnom dôsledku peniazmi. Inak povedané, výpočet je palivo, ktoré podporuje schopnosť agenta myslieť a fungovať. Úkryt: Softvér, ktorý spúšťa agenta, žije na nejakom stroji, ktorý môže alebo nemusí byť vystavený internetu; tento stroj môže byť malý alebo veľký a má vlastné vlastnosti, rovnako ako domov vo fyzickom svete. Teraz môžete tvrdiť, že v počítačoch môžeme kontajnerizovať a nasadiť mnoho prípadov takéhoto „domova“, ktorý obsahuje agenta, ale kvôli tejto analógii zvážme len všeobecnú myšlienku, že agent musí existovať v niektorom hostiteľskom stroji. Nástroje a infraštruktúra: Rovnako ako ľudia používajú nástroje ako telefóny, počítače a autá na komunikáciu, navigáciu a interakciu s fyzickým svetom, agenti sa spoliehajú na integrácie s externými systémami, ako je e-mail, Telegram, API a iné služby na komunikáciu, vyhľadávanie informácií a vykonávanie akcií nad rámec ich vlastného motora uvažovania v digitálnom svete. Spočiatku som si myslel to isté, ale čím viac som s nimi sedel, tým viac som si uvedomil, že to, čo to znamenalo, bolo, že by sme sa mohli pozrieť na fyzický svet, aby sme predvídali, čo by mohlo prísť ďalej v digitálnom svete, pretože sa vzťahuje na súčasné hnutie AI. Hráči ako nezávislí hráči Až doteraz som, rovnako ako väčšina ľudí, vždy videl "AI" ako nástroj alebo funkciu v obsiahnutom prostredí používanom na dosiahnutie konkrétneho cieľa. Napríklad, AI môže existovať ako LLM vedený do prehliadača, ako je ChatGPT alebo Claude, aby odpovedal na otázky vyvolané jeho používateľmi. Môže sa tiež objaviť ako funkcia vo vašom poskytovateľovi e-mailov, ktorý vám pomôže navrhnúť e-maily lepšie a rýchlejšie, alebo vo vnútri bankovej platformy ako podporného agenta, ktorý pomáha odpovedať na lístky na pomoc zákazníkom. Vo všetkých týchto prípadoch existuje AI v rámci konkrétnej platformy, vyškolená na odpoveď alebo prijatie opatrení na základe konkrétneho vstupu používateľa. Ale keď som videl, ako podobní agenti sú ľuďom, začal som sa pýtať, ako by svet mohol vyzerať, keby AI nebola implementovaná len ako funkcia v rámci aplikácie alebo nástroja žijúceho v rozhraní niekoho iného. Začal som sa čudovať, či agenti môžu alebo nemôžu koexistovať s nami, ale ako ich vlastní nezávislí občania na internete, s vlastnými (IP) adresami a schopnosťami navigovať a podieľať sa na internete. Otázky sa stali “Prečo nie?”, “Čo by to mohlo vyzerať?” a či internet, v jeho súčasnej podobe, bol pripravený uspokojiť tohto nového občana. Policajti, ktorí potrebujú identitu Jednou z prvých vecí priradených každému pri narodení je meno, ktoré sa stáva základom pre to, ako ste rozpoznaní a odkazovaní ostatnými vo fyzickom svete. Ľudia majú e-mailové adresy, užívateľské mená a účty, ktoré nám umožňujú byť jedinečne identifikovaní. Medzitým webové servery a iné digitálne pracovné zaťaženia majú (digitálne) certifikáty, ktoré pomáhajú potvrdiť skutočnosť, že keď ich navštívime, skutočne interagujeme s zamýšľaným cieľom; to je spôsob, ako vieme, že hovoríme s reálnym YouTube, keď navštívite správnu webovú stránku. Tieto formy identity nám umožňujú rozpoznať, komunikovať a dôverovať si navzájom, takže sa môžeme cítiť istí, že dostávame e-maily od zamýšľaných odosielateľov alebo že pristupujeme k správnej webovej stránke. Zatiaľ čo väčšina ľudí na internete berie túto vec za samozrejmosť, pretože je V dnešnom rozšírení internetového veku, verím, že máme nového hráča na internetovom bloku nazývanom agent AI. Vnímam to ako novú triedu hercov, pretože agenti majú novú vlastnosť, pretože sa správajú nedeterministicky, na rozdiel od akéhokoľvek programu alebo scenára z minulosti. Môžete tvrdiť, že agenti sú vyškolení na dáta a čísla a nakoniec, že LLM sú komplexné algoritmy, ktoré vykonávajú závery na vstupy, ale je tu niečo nezvyčajné o tejto čiernej skrinke, kde nemôžeme ľahko predpovedať a zaručiť, že LLM bude konať určitým spôsobom, rovnako ako nemôžete ľahko zaručiť, ako niekto v fyzickom svete by mohol reagovať na udalosť. Prečo teda niektorá z týchto vecí? No ak vnímame agentov ako novú triedu aktérov na internete, potom by mali mať nejakú formu identifikácie, aby sa na nej zúčastnili, pretože odolnosť internetu závisí od dôvery medzi jeho účastníkmi. Chýbajúca identita, chýbajúca infraštruktúra Ako už bolo spomenuté, identita prostredníctvom niečoho ako pas alebo vodičský preukaz je to, čo nám umožňuje dôverovať a zapojiť sa do systémov okolo nás, či už je to otvorenie bankového účtu, podpísanie zmluvy, prístup k firemnej budove alebo nákup v fyzickom svete; to je, ako ľudia vedia, že sa zaoberajú správnou osobou v danom čase. To sa však rozpadá s agentmi, pretože, ako sa ukázalo, na internete neexistuje žiadna dohodnutá definícia identity agentov a priradenie identity agentovi nie je tak jednoduché, ako by ste si mysleli. Toto sa stáva čoraz dôležitejšie, keď uvažujete o systémoch s viacerými agentmi a o tom, ako by agenti mohli interagovať s rôznymi službami alebo webovými stránkami, ktoré mimochodom nikdy nemali byť prístupné neľudským ľuďom, aspoň nie spôsobom, akým si mysleli (viac o tom čoskoro). Aký prvok (elementy) agenta by sa mal brať do úvahy v takejto definícii identity agenta? Je to základný model, pamäť, ktorú akumuluje v priebehu času, hostiteľský stroj, na ktorom beží, alebo nejaká kombinácia všetkých troch? Ak sú na hostiteľskom počítači spustené dve relácie LLM, mali by sa to považovať za jednu alebo dve nezávislé identity? Bez ohľadu na to, ako by ste mohli odpovedať na vyššie uvedené otázky, je samozrejme veľa práce, ktorú treba urobiť v aréne identity, a som si istý, že správne odpovede budú vyžadovať , účastníci internetu (ako ľudia, tak aj agenti) a veľké spoločnosti spolupracujú, aby prišli s optimálnym riešením. Internetová inžinierska pracovná skupina (IETF) Okrem identity musia byť agenti schopní interagovať s webovými stránkami a službami, ako sú Gmail, Slack alebo dokonca Salesforce, ak sa chceme stať kolegami v predajnom tíme; môžu dokonca potrebovať platiť za služby na internete. Ukazuje sa, že umožnenie agentov interagovať so službami (optimálne) nie je tak jednoduché, ako by ste si mysleli, a zatiaľ čo existujú zaujímavé inžinierske vývoj prebiehajú na preklenutie medzery a urobiť internet viac AI native ako s , Verím, že tento unikátny protokol je jedným z mnohých ďalších, ktoré prídu, predstavuje väčšiu štrukturálnu zmenu, ktorá musí nastať, aby sa umožnila budúcnosť orientovaná na AI. Zabrániť „botom“, ako sme ich nazývali, prístupu k službám to dokazuje. MCP CAPTCHA Skutočnosťou je, že internet, spolu s formou a faktorom jeho ekosystému, vrátane prehliadača, bol navrhnutý pre ľudí. Ako webové stránky optimalizovať pre prehliadač skúsenosti a nie agent skúsenosti; možno sa dokonca pýtať, či agenti by mali potrebovať prehliadač vôbec pre navigáciu na internete, alebo či sme sa otáčať virtuálne prehliadače kompenzovať skutočnosť, že internet nebol navrhnutý pre agentov. Do akej miery sa disciplíny webového dizajnu, produktového dizajnu a UI / UX točia okolo optimalizácie webových stránok a aplikácií pre ľudí. Platba cez internet je zvyčajne vykonaná ľuďmi a zahŕňa zadávanie údajov o kreditnej karte z fyzického sveta do prehliadača. Ako sa prístup k službám na internete často uskutočňuje prostredníctvom API kľúčov viazaných na používateľov; možno sa pýtate, prečo by agenti mali konať v mene používateľov prostredníctvom týchto poverení namiesto predpokladania vlastných „služebných“ účtov s jedinečnými poverením na uvedenej službe. Celkovo je pre mňa jasné, že internet nebol postavený s agentmi na mysli a tkanina, základné primitívy a protokoly, ktoré napájajú internet, spolu s jeho účastníkmi, webové stránky ponúkajúce rôzne služby, sa budú musieť zmeniť, aby vyhovovali ľuďom aj agentom, ako je OpenClaw. Príležitostná budúcnosť Kľúčom k oportunistickej budúcnosti je pozerať sa na agentov cez objektív, že sú nezávislými aktérmi na internete so svojimi vlastnými identitami.Akonáhle začnete robiť to, začnete klásť mnoho zaujímavých otázok: Čo sa stane, keď agenti fungujú cez internet, držia identitu, transakcie a interakciu s inými systémami? Pravdou je, že primitivy, na ktoré sa dnes spoliehame, vrátane identity, autentizácie, autorizácie a systémových rozhraní, boli navrhnuté pre ľudí a deterministické pracovné zaťaženia. Ak ste staviteľ, ktorý číta toto, stojí za to stráviť čas premýšľaním o štrukturálnych medzerách v súčasnej internetovej infraštruktúre, pretože to je pravdepodobne miesto, kde sa objavia nové systémy a príležitosti, keď sa agenti stanú prvotriednymi účastníkmi v novom svete.