Бъдещето на AI изглежда изненадващо човешко

Преди няколко седмици се разхождах с Целта беше проста: да разберем неговата архитектура и да видим какви уроци мога да извлечем и приложа от нея. Докато изследвах неговата архитектура, копаейки във всичко от структурата на паметта до нейните интеграции с различни услуги, не можех да не забелязвам колко подобно се чувства за нас. Откриване Кодексът Моята надежда с тази статия е да се възползвам от моите наблюдения и да предложа нова перспектива за това как физическият свят може да информира как мислим за бъдещето на AI. Заглавие на OpenClaw За тези, които не са запознати с OpenClaw, това е преносим AI агент, построен и отворен код от Peter Steinberger, за да бъде вашият личен асистент. Изненадващо, това, което направи OpenClaw да се откроява, не е нов основен технологичен пробив, а по-скоро колко добре е успял да интегрира различни части от това, което би направило AI системата да се чувства, поради липсата на по-добри думи, чувствителни: интеграции с различни системи като имейл и Telegram, дългосрочна памет за припомняне на информация от минали разговори, система за сърцебиене, за да реагира на различни събития и много други. Резултатът е агент на AI, който се чувства все по-близо до Саманта от научнофантастичния филм . тук тук Споделени примитиви По време на моята работа с OpenClaw забелязах няколко паралели между агентите и нас самите.Колкото повече изследвах неговата архитектура, толкова повече всеки аспект, от компонентите, които съставляват агента до околната среда, започна да прилича на нещо познато. Паралелно с това как Той съществува заедно с реалния свят, освен тук физическите и цифровите светове започнаха да се отразяват взаимно по все по-мрачни начини. Странни неща Нагоре надолу Оказва се, че много от същите примитиви, които правят хората да функционират, също се появяват в агенти. Let me explain: Мислене: Еквивалентът на агента на човешкия мозък е голям езиков модел (LLM). Способността му да се разсъждава идва от това, че е свързан с LLM (в моя случай, Клод). Докато хората имат мозъци, които започват от нулата и се развиват чрез опит, за да ръководят разсъжденията, агентите разчитат на предварително обучени LLM на много петабайти данни, за да ръководят вземането на решения, като част от тяхното разсъждение се влияе от преживявания в реално време, съхранени чрез памет. Памет: Отвъд разсъжденията, забелязах нещо друго, което беше доста интересно - агентът беше в състояние да си спомни дългосрочни спомени, но тази способност избледня с повече разговори и спомени; това е очевидно за тези от нас дълбоко в плевелите на техническите ограничения на LLMs. За цялата точност на математиката и компютърните науки, агентите все още страдат от недостатъци на паметта и контекстния прозорец, подобни на това как хората се борят да си спомнят отдалечени спомени - хек някои от нас не успяват да си спомнят какво сме яли за закуска вчера. Храна: Точно както хората се нуждаят от храна и вода, за да оцелеят и да функционират, агентите се нуждаят от изчисления. Всяко действие, което агентът предприема, консумира изчислителни ресурси, заедно с GPU, електричество и в крайна сметка пари. Убежище: Софтуерът, изпълняващ агент, живее на някаква машина, която може или не може да бъде изложена на интернет; тази машина може да бъде малка или голяма и да има свои собствени качества точно като дом във физическия свят. Сега може да се твърди, че в изчисленията можем да контейнеризираме и разгръщаме много случаи на такъв "дом", който обхваща агента, но за целите на тази аналогия нека просто разгледаме общото понятие, че агентът трябва да съществува в някаква домашна машина. Инструменти и инфраструктура: Точно както хората използват инструменти като телефони, компютри и автомобили, за да общуват, да навигират и да си взаимодействат с физическия свят, агентите разчитат на интеграции с външни системи като електронна поща, Telegram, API и други услуги, за да общуват, да извличат информация и да извършват действия извън собствената си логика в цифровия свят. Първоначално си мислех същото, но колкото повече седях с тях, толкова повече осъзнах, че това означава, че можем да погледнем към физическия свят, за да предвидим какво може да дойде по-нататък в дигиталния свят, тъй като се отнася до текущото движение на AI. Агенти като независими актьори Досега аз, както повечето хора, винаги съм виждал "AI" като инструмент или функция в съдържаща се среда, използвана за постигане на определена цел. Например, AI може да съществува като LLM, свързан в браузър като ChatGPT или Claude, за да отговори на въпроси, отправени от неговите потребители. Тя може също да се появи като функция във вашия имейл доставчик, помагайки ви да изготвите имейли по-добре и по-бързо, или в банкова платформа като агент за поддръжка, който помага да отговорите на бюлетини за помощ за клиенти. във всички тези случаи, AI съществува в рамките на определена платформа, обучена да отговаря или предприема действия въз основа на конкретен потребителски вход. Но виждайки колко подобни агенти са на хората, започнах да се чудя как би изглеждал светът, ако AI не беше просто внедрен като функция в приложение или инструмент, живеещ в интерфейса на някой друг. започнах да се чудя дали агентите могат да съществуват съвместно с нас, но като независими граждани в интернет, със свои собствени (IP) адреси и възможности за навигация и участие в интернет. Въпросите се превръщат в „Защо не?”, „Какво би могло да изглежда това?“ и дали интернет, в сегашната си форма, е готов да приеме този нов гражданин. Хора, нуждаещи се от самоличност Едно от първите неща, които се дават на всеки при раждането, е име, което се превръща в основа за това как вие сте разпознати и посочени от другите във физическия свят. В ерата на интернет, хората и сървърите в интернет следват отделна система, обвързана от договори, които формират това, което ние наричаме цифрова идентичност за всеки човек и цифрово работно натоварване. Хората имат имейл адреси, потребителски имена и акаунти, които ни позволяват да бъдем уникално идентифицирани. Междувременно, уеб сървърите и други цифрови работни натоварвания имат (цифрови) сертификати, които помагат да се удостовери, че когато ги посещаваме, ние действително взаимодействаме с целта; това е начинът, по който знаем, че говорим с истинския YouTube, когато посещавате правилния сайт. Тези форми на идентичност ни позволяват да разпознаваме, общуваме и се доверяваме един на друг, така че можем да се чувстваме сигурни, че В днешното разширяване на епохата на интернет, вярвам, че имаме нов играч в интернет блока, наречен агент на AI. Смятам, че това е нов клас актьори, защото агентите имат ново свойство, тъй като те се държат не-детерминистично, за разлика от всяка програма или сценарий от миналото. Може да се твърди, че агентите са обучени по данни и числа и в крайна сметка, че LLM са сложни алгоритми, които правят изводи по входове, но има нещо странно за тази черна кутия, където не можем лесно да предскажем и гарантираме, че LLM ще действа по определен начин, точно както не можете лесно да гарантирате как някой във физическия свят може да реагира на събитие. Защо обаче се случва някое от тези неща? Е, ако възприемаме агентите като нов клас играчи в интернет, тогава те трябва да имат някаква форма на идентификация, за да участват в него, тъй като устойчивостта на интернет зависи от доверието между неговите участници. Липса на идентичност, липса на инфраструктура Както бе споменато, идентичността чрез нещо като паспорт или шофьорска книжка е това, което ни позволява да се доверим и да се ангажираме с системите около нас, независимо дали това е отваряне на банкова сметка, подписване на договор, достъп до корпоративна сграда или извършване на покупка във физическия свят; това е начинът, по който хората знаят, че се занимават с правилния човек по всяко време. Това обаче се разминава с агентите, защото, както се оказва, няма съгласувана дефиниция за идентичността на агента в интернет и присвояването на идентичност на агент не е толкова просто, колкото бихте си помислили.Това става все по-важно да се приведе в съответствие, когато обмисляте мулти-агентни системи и как агентите могат да взаимодействат с различни услуги или уебсайтове, които, между другото, никога не са били предназначени да бъдат достъпни от нечовеци, поне не по начина, по който мислеха (повече за това скоро). Какъв елемент(и) от агента трябва да се разглежда в такова определение на идентичността на агента? Това ли е основният модел, паметта, която се натрупва с течение на времето, хост машината, на която работи, или някаква комбинация от трите? Ако две LLM сесии се изпълняват на хост машина, това трябва да се счита за една или две независими идентичности? Независимо от това как бихте отговорили на горепосочените въпроси, очевидно има много работа, която трябва да се направи в арената на идентичността, и съм сигурен, че правилните отговори ще изискват , участниците в интернет (както хора, така и агенти) и големите компании да работят заедно, за да измислят оптимално решение. Работна група по интернет инженерство (IETF) Отвъд идентичността, агентите трябва да могат да си взаимодействат с уебсайтове и услуги като Gmail, Slack или дори Salesforce, ако възнамеряваме агентите да станат колеги на екип за продажби; те може дори да трябва да плащат за услуги в интернет. Оказва се, че позволяването на агентите да взаимодействат с услугите (оптимално) не е толкова просто, колкото бихте мислили и, докато има интересни инженерни разработки, които са в ход, за да преодолеят пропастта и да направят интернет по-народен AI като с Вярвам, че този уникален протокол е един от многото, които предстоят, представляващи по-голяма структурна промяна, която трябва да настъпи, за да се даде възможност за бъдеще, насочено към ИИ. Предотвратяването на “ботовете”, както ги наричаме, от достъп до услуги доказва това. МЦП CAPTCHA Реалността е, че интернет, заедно с формата и фактора на своята екосистема, включително браузъра, е предназначен за хора. Как сайтовете се оптимизират за преживяването на браузъра, а не за преживяването на агента; може дори да се попитаме дали агентите трябва да се нуждаят от браузър изобщо, за да навигират в интернет, или дали се въртим към виртуални браузъри, за да компенсираме факта, че интернет не е предназначен за агенти. Колко дисциплините на уеб дизайн, дизайн на продукти и UI / UX се въртят около оптимизирането на уеб сайтове и приложения за хора. Плащането по интернет обикновено се извършва от хора и включва въвеждане на данни за кредитни карти от физическия свят в браузъра. Как достъпът до услуги в интернет често се извършва чрез API ключове, свързани с потребителите; може да се запитате защо агентите трябва да действат от името на потребителите чрез тези поверителни данни, вместо да приемат собствените си "услуги" акаунти с уникални поверителни данни за тази услуга. Като цяло, за мен е ясно, че интернет не е построен с агенти в ума и тъканта, основните примитиви и протоколи, които захранват интернет, заедно с неговите участници, сайтове, предлагащи различни услуги, ще трябва да се променят, за да отговорят както на хора, така и на агенти като OpenClaw. Възможност за бъдеще След като започнете да правите това, ще започнете да задавате много интересни въпроси: Какво се случва, когато агентите работят в интернет, държат самоличност, извършват сделки и взаимодействат с други системи? Истината е, че примитивите, на които разчитаме днес, включително идентичност, автентикация, авторизация и системни интерфейси, са предназначени за хора и детерминистични работни натоварвания. Ако сте строител, който чете това, си струва да отделите време, за да помислите за структурните пропуски в сегашната интернет инфраструктура, защото това вероятно е мястото, където ще се появят нови системи и възможности, тъй като агентите стават първокласни участници в новия свят.