過去 6 か月ほどの間に、大規模な言語モデルの公開および商業的な躍進を目の当たりにしてきました。 ChatGPT や GPT-4 のような AI モデルが印象的で有用であることは否定できませんが、私たちが目にするのは、細かく洗練された最終結果だけです。ユーザーフレンドリーな表面の下には、GPT-4 のトレーニングに費やされた1 億ドルの投資、GPT-4 が残した大量の二酸化炭素排出量、有毒なコンテンツを除外するために長時間働いた開発途上国の低賃金労働者は見られません。 ChatGPT用。
さらに、大規模な言語モデルは、何世代にもわたるユーザー生成コンテンツ、集合的、無償の取り組みでトレーニングされており、現在ではアクセスするために料金を支払うことができます。この観点から見ると、現代の大規模言語モデルの信じられないほどの能力は少し欺瞞的かもしれません.これは、技術独占企業と一般大衆との間の知識と力のギャップの当然の結果です.私たちは、牛を屠殺し、肉を準備するために費やされた無給の労働に気づかずに、グルメスタイルのおいしい高価なステーキを提供されています.
今こそ議員が介入し、AI の開発と使用を規制するときです。この仕事は、立法者が並外れた予見力を必要とします。 EU の AI 法などの新しい規制が最終的に施行される頃には、状況はおそらく現在とは大きく異なっています。
伝えられるところでは、 ChatGPT は AI を規制する EU 委員会の計画をすでに破っています。そして現在、ChatGPT やその他の大規模な言語モデルが EU 委員会の注目を集めているため、OpenAI の CEO である Sam Altman を含む多くの専門家は、 巨大な AI モデルの時代はすでに終わったと述べています。
ビッグテック企業は、ますます魅力的な手段で人々の注目を集めようと競い合っており、議員は数周遅れをとっています.この特定のレースでカメがウサギを打ち負かすことができる唯一の方法は、規制当局が何年も何十年も先の展開を予測できるかどうかです.
最近の発展から判断すると、AI の次の大きなものは自律型エージェントになる可能性が非常に高いです。
私は、自律型エージェントを次世代の高度なチャットボットと見なしています。 ChatGPT は単純なテキストベースのタスクを実行するのに役立ちますが、次世代の高度なチャットボットにははるかに多くのエージェンシーがあります.言い換えれば、彼らは人間の影響をほとんどまたはまったく受けずに、自分の意思で行動できるようになります。
今日の時点では、自律型エージェントを広く使用するための技術は準備ができていません。しかし、それは私たちがそうであってはならないという意味ではありません。ここでは、最近の開発の概要を簡単に説明します。
1 か月前、 OpenAI は ChatGPT でプラグインの初期サポートを実装したことを発表しました。
新しい Web ブラウザー プラグインにより、ChatGPT はインターネットにアクセスし、トレーニング データ以外の最新情報を取得できるようになります。 ChatGPT の登場以来、ユーザーが求めていた機能です。 OpenAI によるもう 1 つの新しいプラグインは、サンドボックス環境で Python を使用し、アップロードとダウンロードを処理し、プログラマーだけでなくプログラミングに興味があり、その分野のスキルを持たない人々の生活を楽にする実験的なコード インタープリターです。
Klarna、Expedia、OpenTable Shopify、Zapier、Slack ChatGPT などのサードパーティ サービスへの追加のプラグインを使用すると、最高のお得な情報や割引を選択したり、旅行のヒントを提供したり、買い物リストを書いたり食料品を購入したり、ディナーの予約をしたり、ビジネス メールを作成し、Gmail または Slack のチャット メッセージで送信します。
今月初め、Hugging Face は次の論文を発表しました: HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face .
著者は、ChatGPT が言語を使用して既存の AI モデルを管理するコントローラーとして機能する方法を示しています。 ChatGPT と他の AI モデルを接続することで、ChatGPT にテキスト、画像、ビデオ、オーディオを生成するだけでなく、さまざまな形式のコンテンツにわたってオブジェクトを識別して説明するように促すことができます。
たとえば、document.jpg を ChatGPT にアップロードし、探している情報を取得するように依頼し、テキストを読み上げさせることができます。または、画像内の特定のオブジェクトの数をカウントするようにChatGPT に指示し、画像を詳細に説明し、説明に基づいてビデオを作成することもできます。
このように、ChatGPT を使用して、他の AI モデルを活用することで、複雑な AI タスクを解決できます。
先週、#AutoGPT が Twitter のトップ トレンド ハッシュタグでした。 AutoGPT は、オープンソース開発者の研究と実験の分野として非常に人気があります。
本質的に、 AutoGPTやBabyAGI 、 Microsoft の Jarvisなどのオープン ソース モデルは、GPT 3.5 や GPT-4 のような大規模な言語モデルの「頭脳」に、定義された目標や目的に基づいてタスクを実行できるようにすることを目的としています。たとえば、AutoGPT に近くの最高で最も安いレストランを見つけてテーブルを予約するように依頼できます。または、人類を滅ぼし、世界支配を確立し、不死を達成するように依頼することもできます。大規模な言語モデル、インターネットへのアクセス、および長期および短期記憶を備えた AutoGPT は、提供された目標を達成するためのタスクを実行します。
AutoGPT のセットアップと使用には多少のコーディング スキルが必要ですが、Web ベースのバージョンであるAgentGPTを試して、体験を味わうことができます。
スタンフォード大学とGoogle Researchが行った最近の実験では、いわゆる「生成エージェント」が人間の行動をシミュレートし、ザ・シムズを連想させるシミュレートされた世界で自ら行動します。論文によると:
アーキテクチャを ChatGPT の大規模言語モデルに接続することで、ゲーム環境で 25 人のエージェントからなる小さな社会を実現します。エンド ユーザーは、これらのエージェントを観察して操作できます。たとえば、エンド ユーザーまたは開発者が町でゲーム内のバレンタイン デー パーティーを開催したい場合、従来のゲーム環境では、何十ものキャラクターの動作を手動でスクリプト化する必要がありました。生成エージェントを使用すると、あるエージェントにパーティーを開きたいと単純に伝えるだけで十分であることを示します (..) 彼らはパーティーについての言葉を広めてから現れ、あるエージェントが別のエージェントに日付を尋ねることさえあります。パーティー、すべてこの単一のユーザー生成シード提案から。
ここでシミュレートされたシムのような環境でジェネレーティブ エージェントをたどることができます。
私の考えでは、自律型エージェントを考える最も単純な方法は、個人用のデジタル アシスタントです。彼らは、デジタルの世界で私たちのニーズに対応できる常駐の執事のようなものです。そして、誰もやりたがらない退屈な仕事を手伝ってください。 AI がエージェンシーで成長するにつれて、従業員や管理者なしで繁栄する自律的な企業が最終的に見られることは想像に難くありません。
自律型エージェントは、今日すでに AI やソーシャル メディアが直面している深刻な問題の深さと規模を拡大します。プライバシー、スマートフォン中毒、AI のブラック ボックスの問題、アライメントの問題などの問題は、まったく新しい意味を持つようになります。
これらの問題に関する私の執筆に興味があり、まだ行っていない場合は、ここでThe Gap を購読できます。