Néhány hétvége előtt a A cél egyszerű volt: megérteni az architektúráját, és megnézni, milyen tanulságokat tudok kihozni és alkalmazni az internetből. Miközben felfedeztem az architektúráját, mindent felfedezve a memória szerkezetétől a különböző szolgáltatásokkal való integrációig, nem tudtam észrevenni, hogy mennyire hasonlít számunkra. Nyitólap Kódex Remélem, hogy ez a cikk a megfigyeléseimre támaszkodik, és új perspektívát kínál arra vonatkozóan, hogy a fizikai világ hogyan tájékozódhat arról, hogyan gondolkodunk az AI jövőjéről. Megjegyzéseket az OpenClaw Azok számára, akik nem ismerik az OpenClaw-t, ez egy hordozható AI ügynök, amelyet Peter Steinberger épített és nyílt forráskódú, hogy az Ön személyes asszisztense legyen. Bármely számítógépen vagy szerveren futhat, és konfigurálható, hogy önállóan integrálódjon a különböző szolgáltatásokkal és különböző feladatokat végezzen. Meglepő módon, ami az OpenClaw-t kiemelte, nem egy új alapvető technológiai áttörés volt, hanem az, hogy mennyire sikerült integrálni az AI-rendszer különböző darabjait, a jobb szavak hiánya miatt, érzékeny: Integrációk különböző rendszerekkel, mint például az e-mail és a Telegram, hosszú távú memória a múltbeli beszélgetésekről való emlékezéshez, a szívverés rendszer a különböző eseményekre való reagáláshoz, és még sok más. Az eredmény egy AI ügynök, aki fokozatosan közelebb érzi magát Samantha-hoz a sci-fi filmből . Itt Itt Primitív megosztás Az OpenClaw-szal való társkeresésem során több párhuzamot vettem észre az ügynökök és magunk között. Minél többet tanulmányoztam az architektúráját, annál inkább minden aspektus, az ügynök összetevőitől a környező környezetéig kezdett hasonlítani valami ismerősre. párhuzamosan azzal, hogy hogyan A valós világ mellett létezik, kivéve, hogy itt a fizikai és a digitális világok egyre homályosabb módon kezdték tükrözni egymást. Furcsa dolgok Az Upside Down Kiderül, hogy sok ugyanaz a primitív, amely az emberi funkciót teszi lehetővé, az ügynökökben is megjelenik. Let me explain: Gondolkodás: Az emberi agy egyenértékűje egy nagy nyelvi modell (LLM). Az érvelés képessége az LLM-hez (az én esetemben Claude) való csatlakozásból származik. Míg az embereknek az agyuk nulláról indul, és a tapasztalatokon keresztül fejlődik az érvelés irányításához, az ügynökök az előzetesen képzett LLM-ekre támaszkodnak számos petabájt adathoz, hogy irányítsák döntéshozatalukat, és érvelésük egy részét a valós idejű tapasztalatok befolyásolják a memórián keresztül. Nem ésszerű azt gondolni, hogy a közeljövőben önképző ügynökök leszünk, akik folyamatosan megragadják az internetet, és érzékszervi visszajelzést kapnak a valós világból, Memória: Az érvelésen túl észrevettem valami mást, ami meglehetősen érdekes volt - az ügynök képes volt emlékezni a hosszú távú emlékekre, de ez a képesség több beszélgetéssel és emlékekkel elhalványult; ez nyilvánvaló azok számára, akik az LLM-k technikai korlátainak gyomrában vannak. A matematika és a számítástechnika pontossága miatt az ügynökök még mindig memória- és kontextushiányban szenvednek, hasonlóan ahhoz, hogy az emberek nehezen emlékeznek a távoli emlékekre - heck néhányan közülünk nem emlékeznek vissza arra, amit tegnap reggeliztünk. Élelmiszer: Ahogyan az embereknek táplálékra és vízre van szükségük a túléléshez és a működéshez, az ügynököknek számításokra van szükségük. Minden ügynök által végzett cselekvés számítógépes erőforrásokat, GPU-kat, villamos energiát és végső soron pénzt fogyaszt. Más szóval, a számítás az üzemanyag, amely fenntartja az ügynök gondolkodási és működési képességét. Shelter: A szoftver fut egy ügynök él valamilyen gép, amely lehet, vagy nem lehet kitett az interneten; ez a gép lehet kicsi vagy nagy, és saját tulajdonságokkal rendelkezik, mint egy otthont a fizikai világban. Most lehet érvelni, hogy a számítástechnika képesek vagyunk containerize és telepíteni sok példányát ilyen „otthon” befogadó az ügynök, de ennek az analógiának kedvéért nézzük csak az általános elképzelés, hogy egy ügynök kell léteznie valamilyen host gép. Eszközök és infrastruktúra: Ahogyan az emberek olyan eszközöket használnak, mint a telefonok, számítógépek és autók, hogy kommunikáljanak, navigáljanak és kölcsönhatásba lépjenek a fizikai világgal, az ügynökök támaszkodnak az olyan külső rendszerekkel való integrációra, mint az e-mail, a Telegram, az API-k és más szolgáltatások, hogy kommunikáljanak, információkat szerezzenek be, és a saját érvelési motorjukon túl cselekedjenek a digitális világban. Először is ugyanazt gondoltam, de minél többet ültem velük, annál inkább rájöttem, hogy ez azt jelentette, hogy a fizikai világba nézhetünk, hogy megjósoljuk, mi következhet a digitális világban, ahogyan ez a jelenlegi AI mozgalomra vonatkozik. Független szereplőként Eddig én, mint a legtöbb ember, mindig is úgy tekintettem az „AI-ra”, mint egy eszközre vagy funkcióra egy bizonyos cél eléréséhez használt környezetben. Például az AI létezhet egy olyan LLM-ként, amely egy olyan böngészőbe vezetett, mint a ChatGPT vagy a Claude, hogy válaszoljon a felhasználók által feltett kérdésekre. Ez is megjelenhet az e-mail szolgáltatóján belül, amely segít az e-mailek jobb és gyorsabb megfogalmazásában, vagy egy banki platformon belül, mint támogató ügynök, amely segít az ügyfelek segítségnyújtási jegyeinek megválaszolásában. De látva, hogy az ügynökök mennyire hasonlítanak az emberekre, elkezdtem megkérdőjelezni, hogy milyen lenne a világ, ha az AI-t nem csak egy alkalmazáson belül, vagy valaki más felületén élő eszközként hajtották végre. elkezdtem azon gondolkodni, hogy az ügynökök együtt létezhetnek-e velünk, de mint saját független állampolgárok az interneten, saját (IP) címükkel és képességeikkel, hogy navigáljanak és részt vegyenek az interneten. A kérdések váltak „Miért nem?”, „Milyen lehet ez?” és hogy az internet, jelenlegi formájában, készen áll-e az új polgár befogadására. Identitásra szoruló személyek Az egyik első dolog, amit valakinek a születéskor hozzárendelnek, egy név, amely az alapja annak, hogy mások hogyan ismernek és utalnak rád a fizikai világban. Az internet korában az emberek és a szerverek az interneten külön rendszert követnek, amelyeket olyan szerződések kötnek össze, amelyek azt alkotják, amit digitális személyazonosságnak és digitális munkaterhelésnek nevezünk. Az emberek e-mail címekkel, felhasználónevekkel és fiókokkal rendelkeznek, amelyek lehetővé teszik számunkra, hogy egyedileg azonosítsuk magunkat. Közben a webszerverek és más digitális munkaterhelések (digitális) tanúsítványokkal rendelkeznek, amelyek segítenek igazolni azt a tényt, hogy amikor meglátogatjuk őket, valóban kölcsönhatásba lépünk a tervezett célcsoporttal; így tudjuk, hogy a valódi YouTube-hoz beszélünk, amikor meglátogatja a megfelelő weboldalt. Ezek az identitásformák lehetővé teszik számunkra, hogy felismerjük, Az internet korszakának mai kiterjesztésében úgy vélem, hogy van egy új szereplő az internetes blokkban, az AI ügynöknek nevezik. Úgy vélem, hogy ez egy új színészosztály, mert az ügynököknek új tulajdonságuk van, mivel nem determinista módon viselkednek, ellentétben a múlt bármely programjával vagy forgatókönyvével. Azt lehet érvelni, hogy az ügynököket adatokat és számokat képezik, és végső soron az LLM-ek összetett algoritmusok, amelyek a bemenetekre következtetéseket hajtanak végre, de van valami furcsa ebben a fekete dobozban, ahol nem tudjuk könnyen megjósolni és garantálni, hogy egy LLM bizonyos módon működik, csakúgy, mint ahogy nem tudod könnyen garantálni, hogy valaki a fiz Akkor miért történik mindezek közül bármelyik? Nos, ha úgy érezzük, hogy az ügynökök egy új osztály szereplői az interneten, akkor nekik valamilyen azonosítási formájuknak kell lenniük ahhoz, hogy részt vegyenek benne, mivel az internet ellenálló képessége a résztvevők közötti bizalomtól függ. Hiányzik az infrastruktúra, hiányzik a közlekedés Mint említettük, az identitás valamiféle útlevél vagy vezetői engedély révén lehetővé teszi számunkra, hogy bízzon és vegyen részt a körülöttünk lévő rendszerekben, legyen szó bankszámla megnyitásáról, szerződés aláírásáról, vállalati épülethez való hozzáférésről, vagy a fizikai világban történő vásárlásról; ez az, ahogyan az emberek tudják, hogy bármikor a megfelelő személlyel foglalkoznak. Ez azonban megszakad az ügynökökkel, mert, amint kiderül, nincs megállapodás szerinti meghatározás az ügynök személyazonosságára az interneten, és az ügynök személyazonosságának hozzárendelése nem olyan egyszerű, mint gondolnád. Ez egyre fontosabbá válik, ha több ügynök rendszereit fontolgatja, és hogy az ügynökök hogyan tudnak kölcsönhatásba lépni a különböző szolgáltatásokkal vagy weboldalakkal, amelyek egyébként soha nem szándékoztak hozzáférni a nem-emberi személyekhez, legalábbis nem úgy, ahogy gondolták (többet erről hamarosan). Milyen elemeket (elemeket) kell figyelembe venni az ügynök identitásának ilyen meghatározásában? Ez a mögöttes modell, a memória, amely idővel felhalmozódik, a host gép, amelyen fut, vagy valamilyen kombinációja mindháromnak? Ha két LLM munkamenet fut egy számítógépen, akkor ez tekinthető egy vagy két független identitás? Függetlenül attól, hogy hogyan válaszol a fenti kérdésekre, nyilvánvalóan sok munkát kell elvégezni az identitás arénában, és biztos vagyok benne, hogy a helyes válaszok megkövetelik a , az internet résztvevői (mind az emberek, mind az ügynökök) és a nagyvállalatok együtt dolgoznak, hogy megtalálják az optimális megoldást. Az Internet Engineering Task Force (IETF) Az identitáson túl az ügynököknek képesnek kell lenniük arra, hogy kölcsönhatásba lépjenek olyan weboldalakkal és szolgáltatásokkal, mint a Gmail, a Slack vagy akár a Salesforce, ha az ügynökök az értékesítési csapat kollégáivá kívánnak válni; még az interneten nyújtott szolgáltatásokért is fizetniük kell. Kiderül, hogy az ügynökök (optimálisan) a szolgáltatásokkal való interakció lehetővé tétele nem olyan egyszerű, mint gondolnád, és bár érdekes mérnöki fejlesztések vannak folyamatban, hogy áthidalják a szakadékot, és az internetet több AI-nativá tegyék, mint például a Úgy gondolom, hogy ez az egyedülálló protokoll a sok közül az egyik, amely egy nagyobb strukturális változást jelent, amelynek meg kell történnie ahhoz, hogy lehetővé tegye az AI-előretekintő jövőt. Hogy megakadályozzuk, hogy a „botok”, ahogyan mi nevezzük őket, hozzáférjenek a szolgáltatásokhoz, ezt bizonyítja. Az MCP A CAPTCHA A valóság az, hogy az internet, valamint az ökoszisztéma formája és tényezője, beleértve a böngészőt is, az emberek számára készült. Hogyan optimalizálják a weboldalak a böngészési élményt, és nem az ügynök élményét; talán még azt is megkérdezhetjük, hogy az ügynököknek egyáltalán szüksége van-e egy böngészőre az internet navigálásához, vagy ha virtuális böngészőket fordítunk, hogy kompenzáljuk azt a tényt, hogy az internet nem ügynökök számára készült. A webtervezés, a terméktervezés és az UI/UX tudományágak mennyire forognak a weboldalak és alkalmazások optimalizálása körül az emberek számára. A fizetés módját az interneten általában az emberek végzik, és magában foglalja a fizikai világ hitelkártya adatainak beírását a böngészőbe. Az interneten a szolgáltatásokhoz való hozzáférés gyakran a felhasználókhoz kötött API-kulcsok révén történik; feltehetjük a kérdést, hogy az ügynökök miért cselekedjenek a felhasználók nevében ezeken a hitelesítő adatokon keresztül, ahelyett, hogy saját „szolgáltatási” fiókjaikat feltételeznék az említett szolgáltatás egyedi hitelesítő adataival. Összességében világos számomra, hogy az internetet nem ügynökökkel építették, és mind a szövetet, a mögöttes primitíveket és protokollokat, amelyek az internetet, valamint a résztvevőket, a különböző szolgáltatásokat kínáló webhelyeket, meg kell változtatni, hogy megfeleljen mind az embereknek, mind az ügynököknek, mint az OpenClaw. Opportunista jövő Az opportunista jövő kulcsa az, hogy az ügynököket az interneten független szereplőknek tekintsük a saját identitásaikkal.Ha elkezdi ezt tenni, sok érdekes kérdést fog feltenni: Mi történik, ha az ügynökök az interneten keresztül működnek, megtartják az identitást, tranzakciókat végeznek, és kölcsönhatásba lépnek más rendszerekkel? Az igazságot meg kell mondani, hogy a ma támasztott primitívek, beleértve az identitást, a hitelesítést, az engedélyezést és a rendszerfelületeket, az emberek és a determinista munkaterhelések számára lettek tervezve. Ha ezt olvasod, érdemes időt fordítanod arra, hogy átgondold a jelenlegi internetes infrastruktúra szerkezeti hiányosságait, mert ez valószínűleg az, ahol új rendszerek és lehetőségek jelennek meg, ahogy az ügynökök első osztályú résztvevőkké válnak az új világban.