Pada hujung minggu lepas, saya telah berkumpul dengan Tujuan adalah mudah: Memahami arsitekturnya dan lihat apa pelajaran yang boleh saya ambil dan terapkan daripadanya Semasa saya meneroka arsitekturnya, menggali ke dalam segala-galanya dari struktur memori kepada integrasi dengan perkhidmatan yang berbeza, saya tidak boleh membantu tetapi memperhatikan betapa serupa ia berasa kepada kita. Pembukaan codebase Harapan saya dengan artikel ini ialah untuk menarik perhatian saya dan menawarkan perspektif baru tentang bagaimana dunia fizikal boleh memberitahu bagaimana kita berfikir tentang masa depan AI. Maklumat lanjut OpenClaw Bagi mereka yang tidak akrab dengan OpenClaw, ia adalah ejen AI portabel yang dibina dan open-source oleh Peter Steinberger untuk menjadi penolong peribadi anda. ia boleh berjalan pada mana-mana komputer atau pelayan dan dikonfigurasi untuk bersepadu dengan perkhidmatan yang berbeza dan melakukan tugas yang berbeza. Yang mengejutkan, apa yang telah membuat OpenClaw menonjol bukan sebarang terobosan teknologi baharu yang mendasari tetapi seberapa baik ia telah berjaya mengintegrasikan bahagian-bahagian yang berbeza daripada apa yang akan membuat sistem AI berasa, kerana kurangnya kata-kata yang lebih baik, berasa: Integrasi dengan sistem yang berbeza seperti e-mel dan Telegram, memori jangka panjang untuk mengingat maklumat dari perbualan terdahulu, sistem denyut jantung untuk bertindak balas kepada peristiwa yang berbeza, dan banyak lagi. Hasilnya ialah seorang agen AI yang berasa semakin dekat dengan Samantha daripada filem sci-fi . ini ini Perbezaan Primitiv Semasa saya bertukar-tukar dengan OpenClaw, saya memperhatikan beberapa paralel antara agensi dan diri kita sendiri. Semakin saya meneroka seni bina, semakin setiap aspek, dari komponen yang membentuk agensi kepada persekitaran di sekelilingnya, mula menyerupai sesuatu yang biasa. Dengan perbandingan dengan bagaimana dunia nyata, kecuali di sini dunia fizikal dan digital mula mencerminkan satu sama lain dalam cara yang semakin kabur. Perkara Aneh Di bahagian atas bawah Ternyata banyak daripada primitif yang sama yang membuat manusia berfungsi juga muncul dalam agen juga. Let me explain: Berfikir: Agen setara otak manusia ialah model bahasa yang besar (LLM). Keupayaan untuk berfikir datang daripada dikaitkan dengan LLM (dalam kes saya, Claude). manakala manusia mempunyai otak yang bermula dari nol dan berevolusi melalui pengalaman untuk membimbing pertimbangan, agen bergantung kepada LLM yang telah dilatih terlebih dahulu pada banyak petabyte data untuk membimbing pengambilan keputusan mereka, dengan sebahagian daripada pertimbangan mereka dipengaruhi oleh pengalaman masa nyata yang disimpan melalui ingatan. Memori: Di luar pertimbangan, saya memperhatikan sesuatu yang agak menarik - agen itu mampu mengingat kenangan jangka panjang tetapi keupayaan itu hilang dengan lebih banyak perbualan dan kenangan; ini adalah satu yang jelas bagi kita yang dalam dalam rumput pada keterbatasan teknikal LLM. Untuk semua ketepatan matematik dan sains komputer, agen masih menderita kekurangan memori dan tetingkap konteks seperti bagaimana manusia berjuang untuk mengingati kenangan yang jauh - heck sesetengah daripada kita gagal mengingati apa yang kami makan untuk sarapan semalam. Makanan: Sama seperti manusia memerlukan makanan dan air untuk bertahan hidup dan berfungsi, agensi memerlukan pengkomputeran. Setiap tindakan yang diambil oleh seorang agen mengkonsumsi sumber pengkomputeran, bersama-sama dengan GPU, elektrik, dan akhirnya wang. Shelter: Perisian yang menjalankan agen hidup pada sesetengah mesin yang mungkin atau mungkin tidak terdedah kepada internet; mesin itu boleh kecil atau besar dan mempunyai kualiti tersendiri seperti rumah di dunia fizikal.Sekarang anda boleh berpendapat bahawa dalam pengkomputeran kita boleh mengkonten dan mengimplementasikan banyak contoh "rumah" seperti itu yang menampung agen tetapi demi analogi ini mari kita hanya mempertimbangkan gagasan umum bahawa seorang agen mesti wujud di dalam sesetengah mesin tuan rumah.Jika mesin tersebut terdedah, ia akan diberikan alamat IP awam yang membawa beberapa paralel kepada setara manusia alamat jalan. Alat dan Infrastruktur: Sama seperti manusia menggunakan alat-alat seperti telefon, komputer, dan kereta untuk berkomunikasi, menavigasi, dan berinteraksi dengan dunia fizikal, agensi bergantung kepada integrasi dengan sistem luaran seperti e-mel, Telegram, API, dan perkhidmatan lain untuk berkomunikasi, mengambil maklumat, dan melakukan tindakan di luar enjin pertimbangan mereka sendiri di dunia digital. Pada mulanya saya fikir perkara yang sama, tetapi semakin saya duduk dengan mereka, semakin saya menyedari bahawa apa yang ia bermakna ialah bahawa kita boleh melihat ke dunia fizikal untuk meramalkan apa yang mungkin datang seterusnya dalam dunia digital kerana ia terpakai kepada pergerakan AI semasa. Pelakon sebagai pelakon bebas Sampai sekarang, saya, seperti kebanyakan orang, sentiasa melihat "AI" sebagai alat atau ciri dalam persekitaran yang terkandung yang digunakan untuk mencapai matlamat tertentu. Sebagai contoh, AI boleh wujud sebagai LLM yang disalut ke dalam pelayar seperti ChatGPT atau Claude untuk menjawab soalan yang dicetuskan oleh pengguna. Ia juga boleh muncul sebagai ciri di dalam pembekal e-mel anda, membantu anda merancang e-mel dengan lebih baik dan lebih cepat, atau di dalam platform perbankan sebagai agen sokongan yang membantu menjawab tiket help desk untuk pelanggan. Tetapi melihat betapa serupa agen kepada orang, saya mula bertanya-tanya bagaimana dunia boleh kelihatan jika AI tidak diimplementasikan semata-mata sebagai ciri dalam aplikasi atau alat yang hidup di antara muka orang lain. saya mula bertanya-tanya sama ada atau tidak agen boleh hidup bersama kita, tetapi sebagai warganegara bebas mereka sendiri di internet, dengan alamat (IP) mereka sendiri dan keupayaan untuk menavigasi dan mengambil bahagian dalam internet. Soalan-soalan menjadi “Mengapa tidak?”, “Apa yang boleh kelihatan seperti itu?” dan sama ada internet, dalam bentuk semasa, bersedia untuk menampung warga baru ini. Pegawai yang memerlukan identiti Salah satu perkara pertama yang diberikan kepada sesiapa sahaja pada kelahiran ialah nama, yang menjadi asas untuk bagaimana anda dikenali dan dirujuk oleh orang lain di dunia fizikal. Dalam era internet, manusia dan pelayan di internet mengikuti sistem yang berasingan, terikat oleh kontrak yang membentuk apa yang kita sebut sebagai identiti digital untuk setiap orang dan beban kerja digital. Orang mempunyai alamat e-mel, nama pengguna, dan akaun yang membolehkan kita diidentifikasi secara unik. Sementara itu, pelayan web dan beban kerja digital lain mempunyai sijil (digital) yang membantu membuktikan bahawa apabila kita melawat mereka, kita benar-benar berinteraksi dengan sasaran yang dimaksudkan; ini adalah bagaimana kita tahu bahawa kita bercakap dengan YouTube sebenar apabila anda melawat laman web yang betul. Bentuk-bentuk identiti ini membolehkan kita mengenali, berkomunikasi, dan mempercayai satu sama lain supaya kita boleh merasa yakin bahawa kita menerima e-mel dari penghantar yang dimaksudkan atau bahawa kita mengakses laman web yang betul. manakala kebanyakan orang di internet mengambil perkara ini sebagai jelas kerana ia Saya melihat ini sebagai kelas baru pelakon kerana pelakon mempunyai sifat baru, iaitu bahawa mereka berperilaku tidak-deterministik, tidak seperti mana-mana program atau skrip dari masa lalu.Anda boleh berpendapat bahawa pelakon dilatih pada data dan nombor dan pada akhirnya bahawa LLM adalah algoritma kompleks yang melakukan kesimpulan pada input, tetapi ada sesuatu yang aneh tentang kotak hitam ini di mana kita tidak boleh dengan mudah meramalkan dan menjamin bahawa LLM akan bertindak dengan cara tertentu seperti bagaimana anda tidak boleh dengan mudah menjamin bagaimana seseorang di dunia fizikal boleh bertindak terhadap peristiwa. Jadi mengapa mana-mana perkara ini berlaku? Well jika kita menganggap agensi sebagai kelas baru pemain di internet, maka mereka mesti mempunyai beberapa bentuk pengenalan untuk mengambil bahagian dalamnya, kerana ketahanan internet bergantung kepada kepercayaan di kalangan peserta. Kekurangan identiti, kekurangan infrastruktur Seperti yang dinyatakan, identiti melalui sesuatu seperti pasport atau lesen pemandu adalah apa yang membolehkan kita mempercayai dan terlibat dengan sistem di sekeliling kita, sama ada ia membuka akaun bank, menandatangani kontrak, mengakses bangunan korporat, atau membuat pembelian di dunia fizikal; ini adalah bagaimana orang tahu bahawa mereka berurusan dengan orang yang betul pada bila-bila masa tertentu. Ini, bagaimanapun, pecah dengan agen kerana, seolah-olah, tidak ada definisi persetujuan untuk identiti agen di internet, dan menetapkan identiti kepada agen tidak semudah yang anda fikir. Ini menjadi semakin penting untuk diselaraskan apabila anda mempertimbangkan sistem multi-agent dan bagaimana agen boleh berinteraksi dengan perkhidmatan atau laman web yang berbeza yang, sebaliknya, tidak pernah dimaksudkan untuk diakses oleh bukan manusia, sekurang-kurangnya tidak dalam cara yang mereka fikirkan (lebih lanjut tentang itu segera). Apa elemen (elemen) agen harus dipertimbangkan dalam definisi identiti agen tersebut? Adakah ia adalah model yang mendasari, ingatan yang dikumpulkan dari masa ke masa, mesin tuan yang dijalankan, atau sesetengah gabungan ketiga-tiga? Sekiranya dua sesi LLM dijalankan pada mesin tuan, adakah itu dianggap sebagai satu atau dua identiti bebas? Tidak kira bagaimana anda boleh menjawab soalan-soalan di atas, jelas terdapat banyak kerja yang perlu dilakukan dalam arena identiti, dan saya yakin bahawa jawapan yang betul akan memerlukan , peserta Internet (bagi manusia dan agen), dan syarikat-syarikat besar untuk bekerjasama untuk datang dengan penyelesaian yang optimum. Kumpulan Tugas Kejuruteraan Internet (IETF) Selain identiti, agensi perlu dapat berinteraksi dengan laman web dan perkhidmatan seperti Gmail, Slack, atau bahkan Salesforce jika kami bercadang agensi menjadi rakan kongsi pasukan jualan; mereka mungkin perlu membayar untuk perkhidmatan di internet. Ternyata membolehkan agen untuk berinteraksi dengan perkhidmatan (optimal) tidak semudah yang anda fikirkan dan, manakala terdapat perkembangan kejuruteraan yang menarik yang sedang berlaku untuk melampaui jurang dan menjadikan internet lebih AI asli seperti dengan , Saya percaya protokol unik ini adalah satu bahagian daripada banyak lagi yang akan datang, mewakili perubahan struktur yang lebih besar yang mesti berlaku untuk membolehkan masa depan yang maju AI. untuk menghalang "bot", seperti yang kita telah memanggil mereka, daripada mengakses perkhidmatan membuktikan bahawa. MCP Captcha yang Realitasnya ialah internet, bersama-sama dengan bentuk dan faktor ekosistemnya, termasuk pelayar, telah direka untuk manusia. Bagaimana tapak web mengoptimumkan untuk pengalaman pelayar dan bukan pengalaman agen; seseorang mungkin bertanya sama ada agen perlu memerlukan pelayar sama sekali untuk menavigasi internet atau jika kita menukar pelayar maya untuk mengimbangi fakta bahawa internet tidak direka untuk agen. Seberapa banyak disiplin reka bentuk web, reka bentuk produk, dan UI / UX berputar di sekitar mengoptimumkan laman web dan aplikasi untuk manusia. Pembayaran melalui internet biasanya dilakukan oleh manusia dan melibatkan memasukkan butiran kad kredit dari dunia fizikal ke dalam pelayar. Bagaimana akses kepada perkhidmatan di internet sering dilakukan melalui kunci API yang dikaitkan dengan pengguna; seseorang mungkin bertanya mengapa agen harus bertindak bagi pihak pengguna melalui credentials ini alih-alih menganggap akaun "perkhidmatan" mereka sendiri dengan credentials unik pada perkhidmatan tersebut. Secara keseluruhan, ia adalah jelas kepada saya bahawa internet tidak dibina dengan agensi dalam fikiran dan kedua-dua kain, primitif yang mendasari dan protokol yang menggerakkan internet, bersama-sama dengan peserta, laman web yang menawarkan perkhidmatan yang berbeza, mesti berubah untuk memenuhi kedua-dua manusia dan agensi seperti OpenClaw. Masa Depan Peluang Kunci kepada masa depan opportunistik ialah melihat agen melalui lensa menjadi pemain bebas di internet dengan identiti mereka sendiri.Selepas anda mula berbuat demikian, anda akan mula bertanya banyak soalan yang menarik: Apa yang berlaku apabila agen beroperasi di seluruh internet, memegang identiti, bertransaksi, dan berinteraksi dengan sistem lain? Sebenarnya, primitif yang kita bergantung pada hari ini termasuk identiti, pengesahan, pengesahan, dan antarmuka sistem, direka untuk manusia dan beban kerja deterministik. Jika anda seorang pembina membaca ini, ia bernilai meluangkan masa untuk memikirkan jurang struktur dalam infrastruktur internet semasa kerana ini adalah mungkin di mana sistem baru dan peluang akan muncul sebagai agen menjadi peserta kelas pertama dalam dunia baru.