私たちが人工知能で満たされた未来に向かって急いでいるとき、多くのコメンテーターは、私たちがあまりにも速く動いているのではないかと声を上げて疑問に思っています.テクノロジーの巨人、研究者、投資家は皆、最先端の AI を開発するために猛ダッシュしているようです。
しかし、彼らはリスクを考慮していますか?と心配者は尋ねます。
ディストピアの可能性とそれらを回避する方法を考慮している何百もの鋭敏な心がいることに安心してください.
しかし、実際には未来は不明であり、この強力な新技術の影響は、インターネットの出現時のソーシャル メディアと同じように想像を絶するものです。
良いことも悪いこともありますが、私たちの将来には強力な人工知能システムがあり、孫の将来にはさらに強力な AI が登場します。止めることはできませんが、理解することはできます。
この新技術について、OpenAI の共同設立者であるIlya Stutskeve r と話をしました。OpenAI は非営利の AI 研究機関であり、そのスピンオフは地球上で最も収益性の高いエンティティの 1 つになる可能性があります。
Ilya との会話は、OpenAI の巨大な AI システムの最新のイテレーションである GPT-4 のリリースの直前に行われました。GPT-4 は、何十億語ものテキストを消費しました。これは、人間が生涯で読むことができる量を超えています。
GPT は Generative Pre-trained Transformer の略で、このホメリックポリフェムスを理解する上で重要な 3 つの言葉です。 Transformer は、巨人の心臓部にあるアルゴリズムの名前です。
事前訓練とは、巨大なテキストのコーパスを使用したベヒモスの教育を指し、言語の基本的なパターンと関係を教えます。つまり、世界を理解するように教えます。
生成的とは、AI がこの知識ベースから新しい考えを作成できることを意味します。
AI はすでに私たちの生活の多くの側面を占めています。しかし、来るものははるかに高度で、はるかに強力です。私たちは未知の領域に足を踏み入れています。そして、それが何を意味するのかを考えてみてください。
しかし、過剰に反応しないこと、今私たちを照らしている明るい太陽から亀のように引きこもらないことも重要です.ホメロスの叙事詩「オデッセイ」では、サイクロプスのポリフェムスがオデュッセウスとその乗組員を食べようとして洞窟に閉じ込めます。
しかし、オデュッセウスはなんとか巨人の目をくらませて逃げることができました。 AIは私たちを食べません。
Ilya Sutskever は OpenAI の共同創設者であり主任科学者であり、大規模な言語モデルGPT-4とその公的な子孫である ChatGPT の背後にいる主要な頭脳の 1 人です。ChatGPT は世界を変えていると言っても過言ではないと思います。
イリヤが世界を変えたのはこれが初めてではありません。彼は、畳み込みニューラル ネットワークである AlexNet の主な推進力であり、その劇的なパフォーマンスは 2012 年に科学界を驚かせ、深層学習革命を引き起こしました。
以下は、私たちの会話の編集された写しです。
CRAIG: Ilya、あなたがロシアで生まれたことは知っています。コンピューター サイエンスに興味を持ったきっかけは何だったのでしょう。
イリヤ:確かに、私はロシアで生まれました。私はイスラエルで育ち、10 代のときに家族でカナダに移住しました。両親は、私が幼い頃から AI に興味を持っていたと言います。私も意識にとても刺激を受けました。私はそれに非常に悩まされ、それをよりよく理解するのに役立つことに興味がありました.
ジェフ・ヒントン(ディープラーニングの創始者の 1 人で、GPT-4 の背後にある AI の一種で、当時はトロント大学の教授)と一緒に働き始めたのは、私が 17 歳の非常に早い時期でした。すぐにトロント大学に入学することができました。私は機械学習を本当にやりたかったのです。なぜなら、それは当時完全にアクセスできなかった人工知能の最も重要な側面のように思えたからです。
それが 2003 年のことでした。私たちはコンピューターが学習できることを当然のことと考えていましたが、2003 年には、コンピューターが学習できないことを当然のことと考えていました。当時の AI の最大の功績は、[IBM の] チェス ゲーム エンジンである [1997 年に世界チャンピオンのガルリ カスパロフを破った] ディープ ブルーでした。
しかし、そこにはこのゲームがあり、この研究があり、あるポジションが別のポジションよりも優れているかどうかを判断するこの簡単な方法があります.そして、学習がなかったので、それが現実の世界に適用できるとは本当に思えませんでした.学習はこの大きな謎でした。そして、私は学ぶことに本当に、本当に興味を持っていました。幸運なことに、ジェフ・ヒントンは大学の教授でした。私たちはすぐに一緒に仕事を始めました。
では、知性はどのように機能するのでしょうか。どうすればコンピュータを少しでも賢くすることができるでしょうか?私は、非常に小さいながらも AI に実際に貢献するという明確な意図を持っていました。動機は、知性がどのように機能するかを理解できるかということでした。また、それに向けて貢献しますか?それが私の最初の動機でした。それはほぼちょうど20年前のことです。
一言で言えば、視覚などの複雑なタスクを指定する十分な大きさのデータセットで大規模なニューラル ネットワークと深いニューラル ネットワークをトレーニングすれば、必ず成功するということに気づきました。そして、その論理は還元不可能でした。人間の脳がこれらのタスクを解決し、迅速に解決できることがわかっています。そして、人間の脳は、遅いニューロンを備えた単なるニューラル ネットワークです。
そのため、小さいながらも関連するニューラル ネットワークを取得して、データでトレーニングする必要があります。そして、コンピューター内の最高のニューラル ネットワークは、このタスクを実行する脳内のニューラル ネットワークに関連しています。
CRAIG: 2017 年に、「Attention Is All You Need」という論文が発表され、セルフアテンションとトランスフォーマーが紹介されました。 GPT プロジェクトはどの時点で開始されましたか?トランスフォーマーについての直感はありましたか?
ILYA:文脈上、OpenAI では初期の頃から、次のことを予測するだけで十分だという考えを模索していました。当時のはるかに限られたニューラル ネットワークを使って調査していましたが、次の単語を予測できるニューラル ネットワークがあれば、教師なし学習が解決されることが期待されていました。そのため、GPT が登場する前は、教師なし学習が機械学習の聖杯と見なされていました。
今では完全に解決されており、誰もそれについて話すことさえありませんが、それは聖杯でした.とても不思議だったので、私たちはアイデアを模索していました。次の単語を十分に予測することで、教師なし学習が可能になることに本当に興奮しました。
しかし、私たちのニューラル ネットワークはその仕事に向いていませんでした。再帰型ニューラル ネットワークを使用していました。トランスフォーマーが発表されたとき、文字通り論文が発表されるやいなや、文字通り翌日、トランスフォーマーがリカレント ニューラル ネットワークの限界に対処し、長期的な依存関係を学習することを明らかにしました。
技術的なことです。しかし、すぐに変圧器に切り替えました。そのため、非常に初期の GPT の取り組みはその後もトランスフォーマーで継続されました。それはよりうまく機能し始め、あなたはそれを大きくし、そしてそれをさらに大きくし続けます。
そして、それが最終的に GPT-3 につながり、本質的に今日の私たちの姿になったのです。
CRAIG:大規模な言語モデルが存在する場合の制限は、その知識がトレーニング対象の言語に含まれていることです。そして、ほとんどの人間の知識は、誰もが同意すると思いますが、非言語的です。
その目的は、プロンプトの統計的一貫性を満たすことです。彼らは、言語が関係している現実についての根本的な理解を持っていません。 ChatGPTに自分のことを聞いてみました。私がジャーナリストであること、さまざまな新聞社で働いたことがあることを認識しましたが、私が受賞したことのない賞について何度も何度も話しました。そして、それはすべて美しく読みましたが、根底にある現実とはほとんど関係がありませんでした.今後の研究で、それに対処するために行われていることはありますか?
ILYA:私たちが現在見ているこれらの制限が、2 年後も変わらないという自信はありますか?私はそれほど自信がありません。質問の一部について、私が言いたい別のコメントがあります。それは、これらのモデルは統計的な規則性を学習するだけであり、したがって、世界の性質が何であるかを実際には知らないということです.
私はこれとは異なる見解を持っています。言い換えれば、統計的な規則性を学ぶことは、見た目よりもはるかに大きなことだと思います。
予測も統計的現象です。しかし、予測するには、データを生成した基本的なプロセスを理解する必要があります。データを生成した世界について、ますます理解する必要があります。
私たちの生成モデルが非常に優れたものになると、世界とその機微の多くについて驚くほどの理解が得られると私は主張しています。文字というレンズを通して見た世界です。インターネット上で人間が表現するテキストの空間に世界を投影することで、世界についてますます学ぼうとします。
それでも、このテキストはすでに世界を表現しています。最近の例を一つ挙げましょう これは実に説得力があり 魅力的だと思います[ChatGPT] との非常に興味深いやり取りを見てきました。[ChatGPT] は、Google が Bing よりも優れた検索エンジンであると考えているとユーザーが言うと、好戦的で攻撃的になりました。
この現象についてどのように考えるとよいでしょうか?どういう意味ですか?人々が何をするか、そして人々がこれを行うかを予測しているだけだと言えますが、それは本当です。しかし、おそらく私たちは、これらのニューラル ネットワークの動作を理解するために、心理学の言語が適切になり始めているところまで来ているのかもしれません。
次に、制限について話しましょう。確かに、これらのニューラル ネットワークには幻覚を起こす傾向があります。これは、言語モデルは世界について学ぶのには優れていますが、優れた成果を生み出すには少し劣るからです。そして、それにはさまざまな技術的理由があります。言語モデルが世界について学習し、アイデア、概念、人、存在するプロセスの信じられないほどの表現を学習するのにはるかに優れている技術的な理由がありますが、その出力は期待するほど良くはありません。彼らができる限り良い。
ILYA:たとえば、言語モデルである ChatGPT のようなシステムには、追加の強化学習トレーニング プロセスがあるのはそのためです。私たちはそれを人間のフィードバックからの強化学習と呼んでいます。
トレーニング前のプロセスでは、世界についてすべてを学びたいと考えていると言えます。人間のフィードバックからの強化学習により、アウトプットを重視します。出力が不適切な場合はいつでも、これを繰り返さないでください。出力が意味をなさないたびに、これを繰り返さないでください。
また、優れた出力を生成することをすばやく学習します。しかし、それは出力のレベルであり、言語モデルの事前トレーニング プロセス中はそうではありません。
幻覚に関して言えば、それは時々でっち上げの傾向があり、それが彼らの有用性を大きく制限するものでもあります.
しかし、人間のフィードバックステップからのこの後続の強化学習を改善するだけで、幻覚を起こさないように教えることができると私は非常に期待しています.では、それは本当に学習するのだろうか?私の答えは、調べてみましょう。
今日の私たちのやり方は、私たちのニューラル ネットワークに振る舞いを教え、ChatGPT に振る舞いを教えるために人を雇うことです。あなたはそれと対話するだけで、それはあなたの反応から見て、ああ、それはあなたが望んでいたものではないと推測します.あなたはその出力に満足していません。
そのため、出力は良くありませんでした。次回は別のことを行う必要があります。このアプローチで幻覚を完全に解決できる可能性はかなり高いと思います。
CRAIG: Yann LeCun [Facebook のチーフ AI サイエンティストであり、ディープ ラーニングの初期のパイオニアでもある] は、大規模な言語モデルに欠けているのは、言語モデルが参照できる非言語的なこの基礎となる世界モデルであると考えています。あなたがそれについてどう思うか、そしてあなたがそれをまったく探求したかどうかを聞きたかった.
ILYA: Yann LeCun の提案を見直しましたが、そこには多くのアイデアがあり、それらは異なる言語で表現されており、現在のパラダイムとはおそらく小さな違いがいくつかありますが、私の考えでは、それらはそれほど重要ではありません.
最初の主張は、システムがテキストから世界について知るだけでなく、マルチモーダルな理解を持つことが望ましいということです。
それについての私のコメントは、世界についてもっと学び、人々についてもっと学び、彼らの状態についてもっと学ぶので、マルチモーダルな理解が望ましいということです。解決し、人々と彼らが望むものをより良くします。
私たちはそのためにかなりの作業を行いましたが、最も顕著なのは、私たちが行った 2 つの主要なニューラル ネットワークの形です。 1 つは Clip と呼ばれ、もう 1 つは Dall-E と呼ばれます。そして、どちらもこのマルチモーダルな方向に向かっています。
しかし、私が言いたいのは、私は状況をバイナリーとして見ているわけではないということです。もしあなたがビジョンを持っていなければ、視覚的に、またはビデオから世界を理解していなければ、物事はうまくいかないでしょう。
そして、私はそれを主張したいと思います。ですから、画像や図などから学ぶ方がはるかに簡単だと思うものもありますが、それでもテキストだけから学ぶことはできますが、もっとゆっくりと学ぶことができます.そして、例を挙げましょう。色の概念を考えてみましょう。
確かに、テキストだけから色の概念を学ぶことはできませんが、埋め込みを見ると、埋め込みの概念を説明するために少し迂回する必要があります。すべてのニューラル ネットワークは、単語、文、概念を、高次元ベクトルである「埋め込み」表現を通じて表現します。
そして、これらの高次元ベクトルを見て、何が似ているかを確認できます。ネットワークはこの概念またはその概念をどのように認識していますか?色の埋め込みを見ると、紫は赤よりも青に似ていることがわかり、赤は紫よりもオレンジに似ていることがわかります。テキストだけでそれらすべてを知っています。それはどうしてですか?
あなたが視覚を持っているなら、色の違いはあなたに飛びつきます。あなたはすぐにそれらを認識します。テキストの場合はもっと時間がかかりますが、話す方法を知っているかもしれませんし、構文や単語、文法をすでに理解していて、実際に色を理解し始めるのはずっと後のことです.
したがって、これがマルチモダリティの必要性についての私のポイントです。私はそれが必要ではないと主張しますが、それは最も間違いなく有用です.追求するのは良い方向だと思います。私はそれをそのような厳しいどちらかまたは主張には見ません。
したがって、[LeCun の] 論文の提案は、大きな課題の 1 つは、不確実性を持つ高次元ベクトルを予測することであると主張しています。
しかし、私が驚くべきこと、または少なくとも論文で認められていないことの 1 つは、現在の自己回帰変換器が既にこのプロパティを持っていることです。
例を 2 つ挙げます。 1 つは、本の 1 ページが与えられたときに、本の次のページを予測することです。続く可能性のある非常に多くのページが存在する可能性があります。それは非常に複雑で高次元の空間であり、彼らはそれをうまく処理しています.同じことが画像にも当てはまります。これらの自己回帰変換は、画像に対して完全に機能します。
たとえば、OpenAI と同様に、iGPT に取り組んできました。トランスフォーマーをピクセルに適用したところ、非常にうまく機能し、非常に複雑で微妙な方法で画像を生成できました。 Dall-E 1 で、また同じこと。
したがって、現在のアプローチでは高次元分布の予測に対処できない場所について、この論文が強力なコメントをしたと私が思った部分は、間違いなくできると思います。
CRAIG: ChatGPT や大規模な言語モデルを操作する人間のトレーナーの軍隊を配置して、強化学習を効果的に導くというこのアイデアについては、直観的に言えば、基礎についてモデルを教える効率的な方法のようには思えません。その言語の現実。
ILYA:質問の言い回しには同意しません。事前に訓練されたモデルは、根底にある現実について知る必要があることをすべて知っていると私は主張します。彼らはすでにこの言語の知識を持っており、この言語を生み出す世界に存在するプロセスについても多くの知識を持っています.
大規模な生成モデルがデータについて学習するもの (この場合は大規模な言語モデル) は、このデータを生成した現実世界のプロセスの圧縮された表現です。しかし、人々が置かれている状態や、人々の間に存在する相互作用についても何か。
人が陥る可能性のあるさまざまな状況。これらはすべて、テキストを生成するニューラル ネットワークによって表される圧縮プロセスの一部です。言語モデルが優れているほど、生成モデルが優れており、忠実度が高いほど、このプロセスをより適切に捉えることができます。
さて、あなたが言うように、教師の軍隊は、実際、それらの教師も AI 支援を使用しています。それらの教師は独りではありません。彼らは私たちのツールで作業しており、ツールが作業の大部分を行っています。しかし、監視する必要があります。最終的に非常に高いレベルの信頼性を達成したいので、人々に動作をレビューしてもらう必要があります。
結果として得られる言語モデルが可能な限り適切に動作するように、可能な限り効率的かつ正確にするための多くの動機が実際にあります。
ILYA:そうです、モデルに望ましい行動を教えている人間の教師がいます。そして、彼らが AI システムを使用する方法は常に増加しているため、彼ら自身の効率は向上し続けています。
それは、世界でうまく行動するための教育プロセスと同じです。
幻覚が決して大丈夫ではないことをモデルが認識していることを確認するために、追加のトレーニングを行う必要があります。そして、それを教えるのは、強化学習の人間の教師ループまたはその他の変種です。
ここで何かがうまくいくはずです。そして、すぐにわかります。
クレイグ:これはどこへ行くの?今、注目している研究は何ですか?
ILYA:私が取り組んでいる特定の研究については詳しく話すことはできませんが、大まかにいくつかの研究について言及することはできます。私は、これらのモデルの信頼性と制御性を高め、レッスン データからの学習を高速化し、指示を少なくすることに非常に関心があります。本当に幻覚を起こさないようにしてください。
CRAIG:さらに拡張するには、より高速なプロセッサが必要だというコメントを聞いたことがあります。そして、モデルのスケーリングは終わりが見えないようですが、これらのモデルを訓練するために必要な力は、少なくとも社会的に受け入れられている限界に達しています.
ILYA:あなたが言及した正確なコメントは覚えていませんが、常により高速なプロセッサが必要です。もちろん、パワーは上がり続けます。一般的に言えば、コストは上昇しています。
私が問うべき問題は、コストが大きいかどうかではなく、このコストを支払うことで得られるものがコストを上回るかどうかです。たぶん、あなたはこのすべてのコストを支払い、何も得られません.
しかし、非常に役立つもの、非常に価値のあるもの、私たちが本当に解決したい多くの問題を解決できるものを手に入れることができれば、そのコストは正当化されます。
クレイグ:私が見たある時点で、あなたは民主主義について、またその AI が民主主義に与える影響について話していました。
人々は、解決できないように見える対立がある日について私に話しました.十分なデータと十分な大きさのモデルがあれば、データでモデルをトレーニングすることができ、誰もが満足する最適な解決策を見つけることができる.
人間が社会を管理するのを助けるという点で、これがどこにつながるか考えていますか?
ILYA:将来を見据えた質問なので、とても大きな質問です。私たちのモデルが現在よりもはるかに能力を発揮する方法はまだたくさんあると思います。
政府がこのテクノロジーをさまざまな種類のアドバイスのソースとしてどのように使用するかは、正確には予測できません。
民主主義の問題に関しては、将来起こる可能性があると思うのは、これらのニューラルネットがあり、それらが非常に普及し、社会に大きな影響を与えることになるため、私たちはある種の民主的なプロセスを持つことが望ましいことを発見しました。たとえば、ある国の市民がニューラル ネットワークに情報を提供するとします。私はそれが起こることを想像することができました。
それはおそらく、民主主義の非常に帯域幅の広い形態になる可能性があり、各市民からより多くの情報を取得し、それを集約して、そのようなシステムにどのように機能させたいかを正確に指定します.今では多くの疑問が生じますが、それは将来起こる可能性のあることの1つです.
しかし、すべての変数を分析するとはどういう意味でしょうか?最終的には、これらの変数が非常に重要であると言う場合に、選択を行う必要があります。深く行きたい。私は百冊の本を読むことができるからです.1冊の本を非常にゆっくりと注意深く読んで、より多くのことを理解することができます.ですから、その要素はあるでしょう。また、ある意味ですべてを理解することは、おそらく根本的に不可能だと思います。簡単な例をいくつか挙げてみましょう。
社会のあらゆる複雑な状況は、企業であっても、中規模企業であっても、すでに個人の理解を超えています。そして、AI システムを正しい方法で構築すれば、AI はほとんどすべての状況で非常に役立つと思います。
Craig S. Smith は、ニューヨーク タイムズの元特派員兼幹部です。彼は、ポッドキャストEye on AIのホストです。
こちらにも掲載