Несколько недель назад я кружилась вокруг Цель была проста: понять ее архитектуру и посмотреть, какие уроки я мог извлечь и применить из ее Когда я исследовал его архитектуру, углубляясь во все, от структуры памяти до его интеграции с различными сервисами, я не мог не заметить, насколько это похоже на нас. OpenClaw Кодекс Моя надежда с этой статьей состоит в том, чтобы использовать мои наблюдения и предложить новую перспективу того, как физический мир может информировать нас о том, как мы думаем о будущем ИИ. Отзывы о OpenClaw Для тех, кто не знаком с OpenClaw, это портативный агент ИИ, построенный и открытым исходным кодом Питером Штайнбергером, чтобы быть вашим личным помощником. Удивительно, что то, что сделало OpenClaw выделяется не был какой-либо новый основной технологический прорыв, но скорее, как хорошо он сумел интегрировать различные части того, что сделает систему ИИ чувствовать, из-за отсутствия лучших слов, чувственный: интеграции с различными системами, такими как электронная почта и Telegram, долгосрочная память, чтобы вспомнить информацию из прошлых разговоров, система сердцебиения, чтобы реагировать на различные события, и многое другое. В результате агент искусственного интеллекта становится все ближе к Саманте из научно-фантастического фильма. . здесь здесь Общие примитивы Во время моего приспособления с OpenClaw я заметил несколько параллелей между агентами и нами самими. Чем больше я исследовал его архитектуру, тем больше каждый аспект, от компонентов, которые составляли агент до его окружающей среды, начал напоминать что-то знакомое. Параллельно с тем, как Он существует рядом с реальным миром, за исключением физического и цифрового миров, которые стали отражать друг друга все более размытыми способами. Странные вещи Вверх вниз Получается, что многие из тех же примитивов, которые делают человека функцией, также появляются в агентах. Let me explain: Мышление: Эквивалентным агентом человеческого мозга является большая языковая модель (LLM). Его способность рассуждать происходит от того, что он связан с LLM (в моем случае, Клод). В то время как люди имеют мозги, которые начинаются с нуля и эволюционируют через опыт, чтобы направлять рассуждения, агенты полагаются на LLM, предварительно обученные на многих петабайтах данных, чтобы направлять их принятие решений, с частью их рассуждений, под влиянием опыта в реальном времени, сохраненного через память. Память: Помимо рассуждений, я заметил что-то другое, что было довольно интересно - агент был в состоянии вспомнить долгосрочные воспоминания, но эта способность исчезла с большей частью разговоров и воспоминаний; это очевидно для тех из нас, которые глубоко в травах на технических ограничениях LLMs. Для всей точности математики и компьютерной науки, агенты все еще страдают от недостатков памяти и контекстного окна, подобного тому, как люди борются, чтобы запомнить отдаленные воспоминания - черт некоторые из нас не могут вспомнить, что мы съели на завтрак вчера. Как люди нуждаются в пище и воде, чтобы выжить и функционировать, агенты нуждаются в вычислениях.Каждое действие агента потребляет вычислительные ресурсы, наряду с GPU, электричеством и, в конечном счете, деньгами. Убежище: Программное обеспечение, работающее с агентом, живет на какой-то машине, которая может или не может быть подвергнута воздействию интернета; эта машина может быть маленькой или большой и иметь свои качества, как дом в физическом мире.Теперь вы можете утверждать, что в вычислениях мы можем контейнеризировать и развертывать многие случаи такого «дома», содержащего агента, но ради этой аналогии давайте просто рассмотрим общее понятие, что агент должен существовать внутри какой-то хост-машины. Точно так же, как люди используют такие инструменты, как телефоны, компьютеры и автомобили, чтобы общаться, перемещаться и взаимодействовать с физическим миром, агенты полагаются на интеграции с внешними системами, такими как электронная почта, Telegram, API и другие сервисы, чтобы общаться, получать информацию и выполнять действия, выходящие за пределы их собственной логики в цифровом мире. Сначала я думал то же самое, но чем больше я сидел с ними, тем больше я понял, что это означало, что мы могли смотреть в физический мир, чтобы предсказать, что может произойти дальше в цифровом мире, как это относится к текущему движению ИИ. Агенты как независимые актеры До сих пор я, как и большинство людей, всегда рассматривал «ИИ» как инструмент или функцию внутри содержащейся среды, используемой для достижения определенной цели. Например, ИИ может существовать как LLM, подключенный к браузеру, таким как ChatGPT или Claude, чтобы ответить на вопросы, вызванные его пользователями. Он также может появиться как функция внутри вашего поставщика электронной почты, помогая вам разработать электронные письма лучше и быстрее, или внутри банковской платформы как агент поддержки, помогающий отвечать на бюллетени помощи клиентам. Во всех этих случаях ИИ существует в рамках конкретной платформы, обученной отвечать или принимать действия на основе конкретного ввода пользователя. Но, видя, насколько похожи агенты на людей, я начал задаваться вопросом, как мог бы выглядеть мир, если бы ИИ не был просто реализован как функция в рамках приложения или инструмента, живущего в интерфейсе кого-то другого.Я начал задаваться вопросом, могут ли агенты сосуществовать с нами, но как собственные независимые граждане в Интернете, со своими собственными адресами (IP) и возможностями для навигации и участия в Интернете. Вопросы стали «Почему бы не?», «Как это могло выглядеть?» и готов ли Интернет в своем нынешнем виде принять этого нового гражданина. Агенты, нуждающиеся в идентификации Одним из первых вещей, присвоенных кому-либо при рождении, является имя, которое становится основой для того, как вы узнаете и относитесь к другим в физическом мире. В эпоху интернета люди и серверы в Интернете следуют отдельной системе, связанной контрактами, которые формируют то, что мы называем цифровой идентификацией для каждого человека и цифровой рабочей нагрузки. Люди имеют адреса электронной почты, имена пользователей и учетные записи, которые позволяют нам быть уникально идентифицированными. Между тем, веб-серверы и другие цифровые рабочие нагрузки имеют (цифровые) сертификаты, которые помогают засвидетельствовать тот факт, что когда мы посещаем их, мы действительно взаимодействуем с намеченной целью; это как мы знаем, что мы говорим с реальным YouTube, когда вы посещаете правильный сайт. Эти формы идентификации позволяют нам распознавать, общаться и доверять друг другу таким образом, что мы можем чувствовать себя уверенными, что мы получаем электрон Я рассматриваю это как новый класс актеров, потому что агенты имеют новое свойство, поскольку они ведут себя недетерминистически, в отличие от любой программы или сценария из прошлого. Вы можете утверждать, что агенты обучаются данными и цифрами и, в конечном счете, что LLM - это сложные алгоритмы, которые делают вывод о входах, но есть нечто странное в этом черном ящике, где мы не можем легко предсказать и гарантировать, что LLM будет действовать определенным образом, как вы не можете легко гарантировать, как кто-то в физическом мире может реагировать на событие. Так почему же любой из этих вопросов? Ну, если мы воспринимаем агентов как новый класс игроков в интернете, то они должны иметь какую-то форму идентификации, чтобы участвовать в нем, так как устойчивость интернета зависит от доверия между его участниками. Отсутствие информации, отсутствие инфраструктуры Как уже упоминалось, идентификация через что-то вроде паспорта или водительского удостоверения - это то, что позволяет нам доверять и взаимодействовать с системами вокруг нас, будь то открытие банковского счета, подписание договора, доступ к корпоративному зданию или совершение покупки в физическом мире; так люди знают, что они имеют дело с правильным человеком в любой момент времени. Это, однако, разрывается с агентами, потому что, как выясняется, нет согласованного определения личности агента в Интернете, и присвоение личности агенту не так просто, как вы думаете. Это становится все более важным, чтобы согласовать, когда вы рассматриваете системы с несколькими агентами и как агенты могут взаимодействовать с различными сервисами или веб-сайтами, которые, кстати, никогда не были предназначены для доступа к нечеловеческим лицам, по крайней мере, не так, как они думали (более подробно об этом в ближайшее время). Какой элемент (элементы) агента следует рассматривать в таком определении идентичности агента? Это основная модель, память, которую она накапливает со временем, хост-машина, на которой она работает, или какое-то сочетание всех трех? Если две сессии LLM выполняются на хост-машине, следует ли это считать одной или двумя независимыми идентичностями? Независимо от того, как вы можете ответить на вышеупомянутые вопросы, очевидно, что на арене идентичности предстоит много работы, и я уверен, что правильные ответы потребуют от вас внимания. Участники Интернета (как люди, так и агенты) и крупные компании работают вместе, чтобы придумать оптимальное решение. Рабочая группа Internet Engineering Task Force (IETF) Помимо идентичности, агенты должны иметь возможность взаимодействовать с веб-сайтами и услугами, такими как Gmail, Slack или даже Salesforce, если мы планируем, чтобы агенты стали коллегами команды продаж; им даже может потребоваться оплатить услуги в Интернете. Оказывается, что позволяя агентам взаимодействовать с услугами (оптимально) не так просто, как вы думаете, и, хотя происходят интересные инженерные разработки, чтобы преодолеть разрыв и сделать интернет более искусственным интеллектом, как с Я считаю, что этот уникальный протокол является одним из множества предстоящих, представляющих собой большие структурные изменения, которые должны произойти, чтобы обеспечить будущее, ориентированное на ИИ. предотвращение «ботов», как мы их называли, от доступа к услугам доказывает это. МЦП CAPTCHA Реальность заключается в том, что интернет, наряду с формой и фактором его экосистемы, включая браузер, был разработан для людей. Как веб-сайты оптимизируют опыт браузера, а не опыт агента; можно даже спросить, нужен ли агентам вообще браузер для навигации в Интернете или же мы создаем виртуальные браузеры, чтобы компенсировать тот факт, что интернет не был разработан для агентов. Насколько дисциплины веб-дизайна, дизайна продуктов и UI / UX вращаются вокруг оптимизации веб-сайтов и приложений для людей. Как оплата через интернет обычно производится людьми и включает в себя ввод данных кредитной карты из физического мира в браузер. Как доступ к услугам в Интернете часто осуществляется через API-ключи, связанные с пользователями; можно спросить, почему агенты должны действовать от имени пользователей через эти аккредитации вместо того, чтобы предполагать свои собственные «сервисные» учетные записи с уникальными аккредитациями на указанной службе. В целом, мне ясно, что интернет не был построен с помощью агентов в виду, и как ткань, основные примитивы и протоколы, которые питают интернет, наряду с его участниками, веб-сайты, предлагающие различные услуги, придется изменить, чтобы удовлетворить как людей, так и агентов, таких как OpenClaw. Возможное будущее Ключ к оппортунистическому будущему заключается в том, чтобы видеть агентов через объектив быть независимыми актерами в Интернете со своими собственными идентичностями.Как только вы начнете делать это, вы начнете задавать много интересных вопросов: что происходит, когда агенты работают в Интернете, держат личность, совершают сделки и взаимодействуют с другими системами? Правда, примитивы, на которые мы полагаемся сегодня, включая идентичность, аутентификацию, авторизацию и системные интерфейсы, были разработаны для людей и детерминистских рабочих нагрузок. Если вы строитель, который читает это, стоит потратить время, чтобы подумать о структурных пробелах в текущей интернет-инфраструктуре, потому что это, вероятно, где новые системы и возможности появятся, поскольку агенты становятся первоклассными участниками в новом мире.