数年前の週末、僕は周りでティンキングしていました。 目標はシンプルでした:そのアーキテクチャを理解し、どのようなレッスンを抽出し、それから適用できるかを見る メモリ構造からさまざまなサービスとの統合まで、あらゆるものを掘り下げて、そのアーキテクチャを調べてみると、私たちにどれほど似ているか気づきませんでした。 OpenClawについて コードベース この記事では、私の観察に基づいて、物理世界が私たちがAIの未来についてどう考えるかを伝える新しい視点を提供することを願っています。 OpenClawについて OpenClaw を知らない人にとっては、Peter Steinberger があなたの個人的なアシスタントとして開発し、オープンソースで開発したポータブル AI エージェントです. それはどのコンピュータやサーバーでも実行でき、異なるサービスと自動的に統合し、異なるタスクを実行するように設定されます。 驚くべきことに、OpenClawが突出したのは、新たな基礎技術の突破ではなく、AIシステムが感じるような異なる部分をどれだけうまく統合することができたか、より良い言葉の欠如のために、感覚:メールやテレグラムなどの異なるシステムとの統合、過去の会話からの情報を思い出させる長期メモリ、異なるイベントに対応する心拍数システム、および多くのもの。 その結果、サイエンスフィクション映画のサマンサにどんどん近づいてくるAIエージェント。 . こちら こちら プリミティブ共有 オープンクラウを試してみると、エージェントと私たち自身の間にはいくつかの並列が存在することに気付きました。そのアーキテクチャを調べるほど、エージェントを構成するコンポーネントから周囲の環境に至るまで、それぞれの側面が少し見ているような感じでした。 , with a parallel to how 現実世界と並んで存在しているが、ここでは物理世界とデジタル世界がますます曖昧な形で相互に映し出し始めた。 奇妙なもの THE UPSIDE DOWN 人間の機能を作る同じ原始の多くが、エージェントにも現れていることが判明する。 Let me explain: 思考: 人間の脳のエージェントは、大きな言語モデル(LLM)です。その論理能力は、LLM(私の場合、Claude)に接続されていることから来ています。人間はゼロから始まり、経験を通じて論理を指導するために進化する脳を持っている一方で、エージェントは、決断を導くために多くのペタバイトのデータに事前に訓練されたLLMに依存し、その論理の一部は記憶を通じて保存されたリアルタイムの経験によって影響を受けています。 メモリ:推論を超えて、私はかなり興味深いものに気付きました - エージェントは長期的な記憶を思い出すことができましたが、その能力はより多くの会話や記憶とともに消え去りました。これは私たちの間で、LLMの技術的限界に深く浸透している人々にとっては明らかなものです。 数学とコンピュータサイエンスの精度のすべてのために、エージェントは依然として、人間が遠い記憶を思い出しに苦労するように記憶と文脈の窓の欠陥に苦しんでいます - 何人かは、昨日の朝食のために食べたものを思い出せません。 少なくとも今日の世界では、より多くの情報が入るほど、エージェントは将来の文脈でその情報を思い出して適用することに苦労します。 食べ物:人間が生き残るために食べ物と水を必要としているように、エージェントはコンピューティングを必要とします。エージェントが行うすべての行動は、GPU、電気、そして最終的にお金とともにコンピューティングリソースを消費します。 シェルター: エージェントを実行するソフトウェアは、インターネットに曝露される可能性のあるあるいは存在しないいくつかのマシンで生きています; そのマシンは、小さいか大きなものであり、物理世界の家のように独自の品質を持っています。 今あなたは、コンピューティングでは、そのような「ホーム」の多くのインスタンスをコンテナ化し、展開することができると議論するかもしれないが、この類似性のために、エージェントがあるホストマシンの中に存在しなければならないという一般的な概念を考慮してください。 ツールとインフラストラクチャ:人々が電話、コンピュータ、車などのツールを使用して物理世界とコミュニケーション、ナビゲーション、および相互作用するように、エージェントは電子メール、テレグラム、API、およびその他のサービスなどの外部システムとの統合に依存し、コミュニケーション、情報を取得し、デジタル世界で自らの推論エンジンを超える行動を実行します。 この時点で、あなたはこれらのパラレルは明らかで、おそらくチーズで、何も新しいものではありません、私は最初は同じことを考えたが、私はそれらと座ったほど、それは私たちが現在のAI運動に適用されるように、デジタル世界で次に何が起こるかを予測するために物理世界を見ることができることを意味していたことに気づいた。 独立した俳優として これまで、ほとんどの人々と同様に、私は常に「AI」を特定の目標を達成するために使用される含まれた環境内のツールまたは機能と見てきました。例えば、AIは、ChatGPTやClaudeのようなブラウザに接続されたLLMとして存在する可能性があります。それはまた、電子メールプロバイダー内の機能として現れ、電子メールをより良く、より速く作成するのに役立ちます、または銀行プラットフォーム内のサポートエージェントとして、顧客のためのヘルプデスクチケットを回答するのに役立ちます。 しかし、エージェントが人々とどれほど似ているかを見ると、私はAIが単にアプリケーション内の機能や他人のインターフェイスに住むツールとして実装されていなければ、世界がどう見えるのか疑問に思いつき始めました エージェントが私たちと共存できるかどうか、しかし、インターネット上で自らの独立した市民として、独自の(IP)アドレスとインターネットでナビゲーションし、参加する能力を持っています。 質問は「なぜそうでないのか」、「それがどう見えるのか」と、現在の形でインターネットがこの新しい市民を迎え入れる準備ができているかどうかでした。 アイデンティティを必要とする職員 生まれながらに誰かに割り当てられる最初のものの一つは、あなたが物理世界でどのように認識され、他者に言及されているかを基礎とする名前です。 インターネットの時代に、人間とサーバーは別々のシステムに従い、すべての人とデジタルワークロードのデジタルアイデンティティーと呼ばれるものを構成する契約に結びついている。人々は電子メールアドレス、ユーザーネーム、アカウントを持っており、私たちをユニークに識別することができます。同時に、ウェブサーバーと他のデジタルワークロードには(デジタル)証明書があり、私たちがそれらを訪問するとき、私たちは実際には目的のターゲットと相互作用していることを証明します。これが、私たちが正しいウェブサイトを訪問したときに実際のYouTubeと話していることを知っている方法です。これらの形態のアイデンティは、私たちが認識し、コミュニケーションし、そして互いに信することを可能にしますので、私たちは、 I see this as a new class of actor because agents have a novel property, being that they behave non-deterministically, unlike any program or script from the past. You might argue that agents are trained on data and numbers and ultimately that LLMs are complex algorithms that perform inference on inputs, but there is something unusual about this black box where we cannot easily predict and guarantee that a LLM will act in a certain way just as you cannot easily guarantee how someone in the physical world might react to an event. エージェントがデータと数字に訓練され、最終的にLLMは入力について推測を行う複雑なアルゴリズムであると私は考えています。 では、なぜこれらの事柄のいずれかが起こるのでしょうか。 もし我々がエージェントをインターネット上の新しいクラスであると考えるならば、インターネットの抵抗力は参加者の信頼に依存するので、彼らはそれに参加するために何らかの形の識別を持たなければならない。 アイデンティティの欠如、インフラの欠如 前述したように、パスポートや運転免許などのアイデンティティは、銀行口座を開設し、契約を締結し、企業のビルにアクセスしたり、物理世界で購入したりすることによって、私たちを信頼し、周囲のシステムと関わらせることができます。 しかし、これは、インターネット上でエージェントアイデンティティの合意された定義がないことが判明したように、エージェントにアイデンティティを割り当てることは、あなたが考えるほど単純ではありません。これは、複数のエージェントシステムを考えるときに、エージェントが異なるサービスやウェブサイトとどのように相互作用するかを考慮すると、より重要になってきます。 このようなエージェントアイデンティティの定義において、エージェントのどのような要素(要素)を考慮すべきでしょうか。 それは、潜在的なモデル、時間とともに蓄積するメモリ、実行しているホストマシン、あるいは3つの組み合わせでしょうか。 2つのLLMセッションがホストマシン上で実行されている場合、それは1つまたは2つの独立したアイデンティティとみなされるべきですか? あなたが上記の質問にどのように答えるかに関係なく、アイデンティティーのアリーナでは明らかに多くの仕事が行われているし、正しい答えが必要になることを確信しています。 インターネットの参加者(人間とエージェントの両方)と大企業が、最適なソリューションを発見するために協力する。 インターネットエンジニアリング・タスク・フォーラム(IETF) アイデンティティを超えて、エージェントは、Gmail、Slack、またはSalesforceのようなウェブサイトやサービスと相互作用することができなければなりません、もし私たちがエージェントが販売チームの同僚になることを意図するならば、彼らはインターネット上でサービスを支払う必要があるかもしれません。 エージェントがサービスと(最適に)相互作用することを可能にすることは、あなたが考えるほど簡単ではありませんが、興味深いエンジニアリング開発が進められています。 「このユニークなプロトコルは、今後の多くの中のひとつであり、AIの未来を可能にするために起こらなければならないより大きな構造的変化を表しています。 我々がそれらを呼んでいるように「ボット」がサービスにアクセスするのを防ぐことは、そのことを証明している。 MCP キャプチャ 実際のところ、インターネットは、ブラウザを含むその生態系の形と要素とともに、人間のために設計されたものである。 ウェブサイトはどのようにしてエージェントの経験ではなくブラウザの体験を最適化するか、エージェントがインターネットを閲覧するためにブラウザを必要とするかどうか、またはインターネットがエージェントのために設計されていないという事実を補償するために仮想ブラウザを回転させているかどうかさえ疑問に思うかもしれません。 ウェブデザイン、製品設計、UI/UXの分野は、人間のためのウェブサイトやアプリケーションの最適化をめぐるものだ。 インターネットでの支払いは通常、人間によって行われ、物理世界からクレジットカードの詳細をブラウザに入力することを意味します。 インターネット上のサービスへのアクセスは、しばしばユーザーに結びつくAPIキーを通じて行われますが、なぜエージェントは、そのサービス上のユニークな認証を持つ独自の「サービス」アカウントを仮定する代わりに、これらの認証書を通じてユーザーの名義で行動すべきかを問うことができます。 全体的に言えば、インターネットはエージェントを念頭に置いて構築されていないことが明らかであり、その参加者とともに、さまざまなサービスを提供するウェブサイトとともに、インターネットを動かす主な原始者やプロトコルは、人間とOpenClawのようなエージェントの両方を満たすために変化しなければならない。 機会のある未来 機会主義的な未来の鍵は、インターネット上で独自のアイデンティティを持つ独立した俳優であるというレンズを通してエージェントを見ることです 一旦、あなたがそれを始めるなら、あなたは多くの興味深い質問を尋ね始めるでしょう:エージェントがインターネットを介して動作し、アイデンティティを保持し、取引し、他のシステムと相互作用するときに何が起こりますか? 事実を言うと、私たちが今日のアイデンティティ、認証、認証、およびシステムインターフェイスを含む原始的なものは、人間と決定的なワークロードのために設計されました。 もしあなたがこれを読んでいる人なら、エージェントが新しい世界で一流の参加者になるにつれて、新しいシステムや機会が生まれる可能性があるため、現在のインターネットインフラストラクチャにおける構造的なギャップについて考える時間を費やす価値があります。