Hace un par de días, yo estaba caminando con El objetivo era simple: comprender su arquitectura y ver qué lecciones podía extraer y aplicar de su arquitectura. Mientras exploraba su arquitectura, explorando todo, desde la estructura de la memoria hasta sus integraciones con diferentes servicios, no podía dejar de notar lo similar que nos parecía. El OpenClaw Código de base Mi esperanza con este artículo es sacar de mis observaciones y ofrecer una nueva perspectiva sobre cómo el mundo físico podría informar cómo pensamos sobre el futuro de la IA. Comentarios sobre OpenClaw Para aquellos que no están familiarizados con OpenClaw, es un agente de IA portátil construido y de código abierto por Peter Steinberger para ser su asistente personal. Puede ejecutarse en cualquier ordenador o servidor y configurarse para integrarse de forma autónoma con diferentes servicios y realizar diferentes tareas. Sorprendentemente, lo que ha hecho que OpenClaw se destaque no ha sido ningún nuevo avance tecnológico subyacente, sino más bien lo bien que ha logrado integrar diferentes piezas de lo que haría que un sistema de IA se sienta, por falta de mejores palabras, sensible: Integraciones con diferentes sistemas como correo electrónico y Telegram, memoria a largo plazo para recordar información de conversaciones pasadas, un sistema de latidos para responder a diferentes eventos, y mucho más. El resultado es un agente de IA que se siente cada vez más cerca de Samantha de la película de ciencia ficción . aquí aquí Los primitivos compartidos Durante mi tinkering con OpenClaw, noté varios paralelos entre agentes y nosotros mismos.Cuanto más exploré su arquitectura, más cada aspecto, desde los componentes que componen el agente a su entorno, comenzó a parecer algo familiar. En paralelo a cómo Existe junto al mundo real, excepto aquí los mundos físico y digital comenzaron a reflejarse mutuamente de maneras cada vez más borrosas. Cosas extrañas El Upside Down Resulta que muchos de los mismos primitivos que hacen que los humanos funcionen también aparecen en los agentes. Let me explain: Pensamiento: El agente equivalente de un cerebro humano es un gran modelo de lenguaje (LLM). Su capacidad de razonar proviene de estar conectado a un LLM (en mi caso, Claude). Mientras que los humanos tienen cerebros que comienzan en cero y evolucionan a través de la experiencia para guiar el razonamiento, los agentes se basan en LLM pre-entrenados en muchos petabytes de datos para guiar su toma de decisiones, con parte de su razonamiento influenciado por experiencias en tiempo real preservadas a través de la memoria. No es irracional pensar que en un futuro cercano tendremos agentes de auto-entrenamiento que continuamente rascan la internet y toman retroalimentación sensorial del mundo real como más datos para ser entrenados. Memoria: Más allá del razonamiento, noté otra cosa que era bastante interesante: el agente era capaz de recordar recuerdos a largo plazo, pero esa capacidad desapareció con más conversaciones y recuerdos; esto es obvio para aquellos de nosotros profundamente en las heridas sobre las limitaciones técnicas de los LLM. Para toda la precisión de las matemáticas y la ciencia de la computación, los agentes todavía sufren de deficiencias de memoria y ventana de contexto similares a cómo los humanos luchan para recordar recuerdos lejanos - heck algunos de nosotros no recordamos lo que comimos para el desayuno de ayer. Alimento: Al igual que los humanos requieren comida y agua para sobrevivir y funcionar, los agentes requieren computación. Cada acción que toma un agente consume recursos computacionales, junto con GPUs, electricidad y, en última instancia, dinero. En otras palabras, la computación es el combustible que sostiene la capacidad de un agente para pensar y operar. Escondite: El software que ejecuta a un agente vive en alguna máquina que puede o no estar expuesta a Internet; esa máquina puede ser pequeña o grande y tener cualidades propias al igual que una casa en el mundo físico. Ahora usted podría argumentar que en la computación somos capaces de contenerizar y desplegar muchas instancias de tal “casa” alojando al agente, pero por el bien de esta analogía consideremos simplemente la noción general de que un agente debe existir dentro de alguna máquina anfitriona. Herramientas e infraestructura: Al igual que los humanos utilizan herramientas como teléfonos, computadoras y coches para comunicarse, navegar e interactuar con el mundo físico, los agentes dependen de integraciones con sistemas externos como correo electrónico, Telegram, API y otros servicios para comunicarse, recuperar información y realizar acciones más allá de su propio motor de razonamiento en el mundo digital. Al principio pensé lo mismo, pero cuanto más me senté con ellos, más me di cuenta de que lo que significaba era que podíamos mirar al mundo físico para anticipar lo que podría venir a continuación en el mundo digital como se aplica al movimiento actual de la IA. Los agentes como actores independientes Hasta ahora, yo, como la mayoría de la gente, siempre he visto “AI” como una herramienta o una función dentro de un entorno contenido utilizado para lograr un objetivo específico. Por ejemplo, la IA podría existir como un LLM conectado a un navegador como ChatGPT o Claude para responder a las preguntas planteadas por sus usuarios. También podría aparecer como una característica dentro de su proveedor de correo electrónico, ayudándole a diseñar correos electrónicos mejor y más rápido, o dentro de una plataforma bancaria como un agente de soporte que ayuda a responder a los boletos de ayuda para clientes. En todos estos casos, la IA existe dentro del alcance de una plataforma particular, capacitada para responder o tomar acciones basadas en una entrada de usuario específica. Pero viendo cuán similares eran los agentes a las personas, comencé a preguntarme cómo podría parecer el mundo si la IA no se implementara simplemente como una característica dentro de una aplicación o una herramienta que vive en la interfaz de otra persona. Comenzé a preguntarme si los agentes podrían coexistir con nosotros, pero como sus propios ciudadanos independientes en Internet, con sus propias direcciones (IP) y capacidades para navegar y participar en Internet. Las preguntas se convirtieron en “¿Por qué no?”, “¿Cómo podría parecer eso?” y si o no Internet, en su forma actual, estaba listo para acomodar a este nuevo ciudadano. Personas que necesitan identidad Una de las primeras cosas asignadas a cualquier persona al nacer es un nombre, que se convierte en la base de cómo usted es reconocido y referido por otros en el mundo físico. En la era de Internet, los seres humanos y los servidores en Internet siguen un sistema separado, vinculado por contratos que forman lo que llamamos identidad digital para cada persona y carga de trabajo digital. Las personas tienen direcciones de correo electrónico, nombres de usuario y cuentas que nos permiten ser identificados de forma única. Mientras tanto, los servidores web y otras cargas de trabajo digitales tienen certificados (digitales) que ayudan a atestar al hecho de que cuando los visitamos, realmente estamos interactuando con el objetivo previsto; así sabemos que estamos hablando con el verdadero YouTube cuando usted visita el sitio web correcto. Estas formas de identidad nos permiten reconocer, comunicarse y confiar unos a otros para que podamos sentirnos seguros de que estamos recibiendo correos electrónicos de los remitentes previstos o que estamos accediendo al sitio web correcto. En la actual extensión de la era de Internet, creo que tenemos un nuevo actor en el bloque de Internet llamado el agente de IA. Veo esto como una nueva clase de actor porque los agentes tienen una propiedad nueva, siendo que se comportan de forma no determinista, a diferencia de cualquier programa o guión del pasado.Podrías argumentar que los agentes están entrenados en datos y números y, en última instancia, que los LLM son algoritmos complejos que realizan inferencias en las entradas, pero hay algo extraño acerca de esta caja negra donde no podemos predecir y garantizar fácilmente que un LLM actuará de una manera determinada, al igual que no puedes garantizar fácilmente cómo alguien en el mundo físico podría reaccionar a un evento. Entonces, ¿por qué ocurre cualquiera de estas cosas? Bueno, si percibimos a los agentes como una nueva clase de actores en Internet, entonces deben tener alguna forma de identificación para participar en ella, ya que la resiliencia de Internet depende de la confianza entre sus participantes. Falta de identidad, falta de infraestructura Como se mencionó, la identidad a través de algo como un pasaporte o una licencia de conducir es lo que nos permite confiar y involucrarnos con los sistemas que nos rodean, ya sea abrir una cuenta bancaria, firmar un contrato, acceder a un edificio corporativo o hacer una compra en el mundo físico; así es como la gente sabe que está tratando con la persona adecuada en cualquier momento. Esto, sin embargo, se rompe con los agentes porque, como resulta, no hay una definición acordada para la identidad del agente en Internet, y asignar la identidad a un agente no es tan sencillo como podrías pensar. Esto se vuelve cada vez más importante alinear cuando consideras los sistemas de agentes múltiples y cómo los agentes podrían interactuar con diferentes servicios o sitios web que, por cierto, nunca tenían la intención de ser accedidos por no humanos, al menos no de la manera en que pensaban (más sobre eso pronto). ¿Qué elemento(s) de un agente debe ser considerado en tal definición de identidad de agente? ¿Es el modelo subyacente, la memoria que acumula con el tiempo, la máquina anfitriona en la que se ejecuta, o alguna combinación de los tres? Si dos sesiones de LLM se ejecutan en una máquina anfitriona, ¿debe considerarse una o dos identidades independientes? Independientemente de cómo usted pueda responder a las preguntas anteriores, obviamente hay mucho trabajo que hacer en la arena de la identidad, y estoy seguro de que las respuestas correctas requerirán la , participantes de Internet (tanto humanos como agentes), y grandes empresas para trabajar juntos para llegar a una solución óptima. Grupo de Trabajo de Ingeniería de Internet (IETF) Más allá de la identidad, los agentes deben poder interactuar con sitios web y servicios como Gmail, Slack o incluso Salesforce si pretendemos que los agentes se conviertan en colegas de un equipo de ventas; pueden incluso tener que pagar por servicios en Internet. Resulta que permitir que los agentes interactúen con los servicios (optimamente) no es tan sencillo como piensas y, mientras que hay interesantes desarrollos de ingeniería en curso para cerrar la brecha y hacer que Internet sea más nativa de la IA como con , Creo que este protocolo singular es una pieza de muchos más por venir, representando un cambio estructural más grande que debe ocurrir para permitir un futuro avanzado en IA. Tal vez el momento del amanecer para mí fue la comprensión de que la mayoría de los sitios web en Internet fueron construidos para humanos, y la existencia de Evitar que los “bots”, como los hemos llamado, accedan a los servicios lo demuestra. MCP CAPTCHA La realidad es que Internet, junto con la forma y el factor de su ecosistema, incluido el navegador, fue diseñado para los humanos. Cómo los sitios web se optimizan para la experiencia del navegador y no la experiencia del agente; se podría incluso preguntar si los agentes necesitan o no un navegador para navegar por Internet, o si estamos girando navegadores virtuales para compensar el hecho de que Internet no fue diseñado para los agentes. ¿Cuánto las disciplinas de diseño web, diseño de producto y UI / UX giran alrededor de la optimización de sitios web y aplicaciones para los humanos? El pago a través de Internet suele ser realizado por humanos y implica la introducción de datos de tarjetas de crédito del mundo físico en el navegador. Cómo el acceso a los servicios en Internet a menudo se hace a través de claves de API vinculadas a los usuarios; se podría preguntar por qué los agentes deben actuar en nombre de los usuarios a través de estas credenciales en lugar de asumir sus propias cuentas de "servicio" con credenciales únicas en dicho servicio. En general, es claro para mí que Internet no se construyó con agentes en mente y tanto el tejido, los primitivos subyacentes y los protocolos que alimentan a Internet, junto con sus participantes, sitios web que ofrecen diferentes servicios, tendrán que cambiar para atender tanto a humanos como a agentes como OpenClaw. Un futuro oportunista La clave para un futuro oportunista es ver a los agentes a través de la lente de ser actores independientes en Internet con sus propias identidades.Una vez que empiece a hacer eso, comenzará a hacer muchas preguntas interesantes: ¿Qué sucede cuando los agentes operan a través de Internet, mantienen la identidad, transitan y interactúan con otros sistemas? La verdad es que los primitivos en los que confiamos hoy en día, incluyendo la identidad, la autenticación, la autorización y las interfaces del sistema, fueron diseñados para los seres humanos y las cargas de trabajo deterministas. Si usted es un constructor leyendo esto, vale la pena pasar el tiempo pensando en las brechas estructurales en la infraestructura de Internet actual porque esto es probable donde nuevos sistemas y oportunidades surgirán a medida que los agentes se conviertan en participantes de primera clase en el nuevo mundo.