これは、機械学習テクノロジーの現状について、特に AI とも呼ばれる LLM と歴史の現在点に焦点を当てた週末の考察を含むエッセイです。
このエキサイティングな特異点の話に入る前に、これはエッセイとして、より個人的で堅苦しくない文章であり、自然言語理解の進化についての私の見解を共有し、その文脈で重要と思われるいくつかのアイデアに焦点を当てていることを述べておきたいと思います。 。これは包括的な業界レポートではなく、またそれを意図したものでもありませんが、機械学習エンジニアにとっても、現在の AI の隆盛に興味のある幅広い読者にとっても興味深い読み物になれば幸いです。
物語には 3 つの部分があります。
歴史の部分では、わずか 12 年で多層パーセプトロンから現在の AGI 状態にどのように到達したかを簡単に思い出させます。
現在のセクションでは、 LLMの最新の成果と現在の業界トレンドに焦点を当てます。コンテキストを深く理解していて、新しいアイデアを探している場合は、その部分までスキップしてください。
ミステリー部分では、現在の AGI 段階に続く可能性のあるものについてのいくつかのアイデアが示されています。
まず第一に、機械学習は、Tomas Mikolov の word2vec出版物から数えるか、Coursera の Andrew Ng の機械学習コースから数えるかによって異なりますが、約 10 年または 120 年に渡って存在してきました。 Kaggle は 2010 年に設立され、Fei-Fei Li がImagenetを設立したのは 2009 年です。それほど昔のことではありません。30 歳以上であればおそらく同意するでしょう。
機械学習はもっと前から存在していると主張する人もいるでしょうが、私は今、純粋な研究についてではなく、深層学習アルゴリズムの業界での採用、つまりテクノロジーの勢いについて話しています。ここでは、scikitlearn でカバーされている古典的な ML アルゴリズム、すべての回帰、クラスタリング、時系列予測などには触れません。彼らは重要な仕事を黙々とこなしていますが、人々は彼らをAIとは呼びませんし、誇大広告もありません。
なぜ 12 年前に AI の春が起こったのでしょうか?深層学習 (誤差逆伝播による多層ニューラル ネットワークのトレーニング) が、ついに平均的な GPU で実現可能になりました。 2010 年に、最も単純なニューラル ネットワーク アーキテクチャである多層パーセプトロンが、手書き数字認識 (有名な MNIST データセット) で他のアルゴリズムを破り、その結果が Juergen Schmidhuber らによって達成されました。
2010 年頃から、テクノロジーはますます堅牢になってきました。状況を変える瞬間がいくつかありました。自然言語処理 (NLP) の世界に意味論的な理解をもたらした前述の word2vec モデルのリリース、その少し後に Tensorflow と Keras の深層学習フレームワークが公開されました、そしてもちろん、 2017 年のTransformer は、依然として SOTA ニューラル ネットワーク アーキテクチャであり、NLP の世界を超えて拡張されています。何故ですか? Transformer には注意があり、O(n2) の複雑さを持つテキストなどのシーケンスを処理できるため、行列乗算アプローチによって可能になり、入力シーケンス全体を確認できるようになります。私の考える Transformer の成功の 2 つ目の理由は、柔軟なエンコーダー デコーダー アーキテクチャにより、モデルを共同および個別に (シーケンスからシーケンス、またはシーケンスからベクター) トレーニングおよび使用できるようになったということです。
GPT-3 はすでにかなり人間らしいテキストを生成でき、少数ショットおよび一部のゼロショット学習が可能であったため、 OpenAI GPT ファミリ モデル (Transformer Decoder) はテクノロジー業界を超えて話題を呼びました。最後の部分はより重要です。GPT-3論文は「言語モデルは少数の学習者である」という名前さえ付けられています。例から迅速に学習する大規模言語モデルのこの機能は、2020 年に OpenAI によって初めて述べられました。
でも、バン!
ChatGPTのリリースは、これまでに見たことのない誇大宣伝とともに行われ、ついに世間の大きな注目を集めました。そして今、 GPT-4はそれを超えています。
何故ですか?過去 7 年間、ニューラル ネットワークがまともな結果を示し始めて以来、私たちが AI と呼んできたものは、実際には狭い範囲の人工知能でした。私たちのモデルは、特定の一連のタスクを解決するように訓練されていました。オブジェクトを認識し、分類を実行し、次のトークンを予測しました。シーケンスで。そして人々は、人間レベルで複数のタスクを完了できる汎用人工知能であるAGIを夢見てきただけです。
実際、命令ベースの LLM チューニング、または OpenAI で言うところの、人間のフィードバックからの強化学習で何が起こったのか —
GPT-3.5+ モデルは、提供された情報を推論する能力をついに学習しました。そして、それは状況を変えます。以前、LLM はかなり優れた統計オウムに近かったものの、テキスト埋め込み、ベクトル検索、チャットボットなどの多くのアプリケーションにとって依然として非常に役立ちました。しかし、命令ベースのトレーニングを使用すると、LLM は人間から推論を効果的に学習します。 。
推理とは一体何でしょうか?
提供された情報を使用して、論理演算を通じて結論を導き出す機能。 A が B に接続され、B が C に接続されているとします。すると、A は C に接続されますか? GPT-4 の公式製品ページには、より複雑な推論の例が掲載されています。モデルの推論能力は非常に強力かつ柔軟であるため、提供された情報だけでなく「一般的な知識」または「常識」を途中で使用して、特定の目標を達成するために従うべき構造化された一連の命令または論理演算を生成できます。プロンプトで。
このような推論能力を備えた LLM が登場する前は、推論用に適切に設計されたもう 1 つのツールは、述語またはエンティティの関係としてエンティティとエッジを含むノードを備えたナレッジ グラフでした。これは、明確な推論能力を提供する情報ストレージの形式です。ある時点で、私はナレッジ グラフを使用して質問された情報を見つける質問応答システムの構築に携わっていました。必要なのは、意図を検出し、グラフ内にこの種の関係があるかどうかを確認し、言及された特定のエンティティを調べ、それらが存在する場合は、このサブグラフをクエリします。実際、このパイプラインは、自然言語のクエリを SPARQL クエリに翻訳しました。
この事実情報をプロンプトのコンテキスト部分としてプレーンテキストでモデルに提供できるようになり、モデルはそれをゼロショットで「学習」し、それに基づいて推論できるようになります。うわー、そうですよね?
また、グラフに含まれるエンティティと関係タイプの数に制限されません。さらに、あなたは「常識」、つまり私たちの世界の概念とその関係についての一般的な理解を持っています。これは、機械学習モデルを人間の認知から分離する際に最も難しい部分でした。私たちは、どのようにして自然言語で指示を与えることができるようになり、あまり明確な説明がなくても正しく動作するようになったことにさえ気づきませんでした。
推論と知識は、知性の 2 つの重要な要素です。過去 20 年間、私たちはウィキペディア、科学出版物、サービスの説明、ブログ、数十億行のコードと Stackoverflow の回答、そしてソーシャル メディアの数十億の意見という形で、ほぼすべての人類の知識をインターネットに公開してきました。
今ではその知識に基づいて推論することができます。
これらの推論能力は、GPT4 に関する公式 OpenAI 技術レポートで詳しく実証されています。
GPT-4 は、これらの専門試験および学術試験の大部分で人間レベルのパフォーマンスを示します。特に、統一司法試験の模擬版に合格し、受験者の上位 10% のスコアを獲得しています。
多くの人体テストにおける GPT-4 の結果によれば、私たちは AGI のどこかにいます。OpenAI は Web ページでもこれらの言葉を使用しており、Microsoft の最近の 150 ページを超える論文では、さまざまな機能に関する GPT-4 機能の詳細な研究が記載されています。 「汎用人工知能の火花: GPT-4 の初期実験」という名前のドメインは、AGI がここにあると慎重かつ明確に主張しています。
GPT-4 の機能の幅広さと奥深さを考えると、GPT-4 は汎用人工知能 (AGI) システムの初期の (まだ不完全な) バージョンとみなすことができると考えられます。
以降:
GPT-4 の機能の汎用性と、幅広い領域にわたる多数の機能と、人間レベルまたはそれを超えた広範囲のタスクに対するパフォーマンスの組み合わせにより、GPT-4 は重要なステップであると安心して言えます。 AGIに向けて。
その主張の理由は次のとおりです。
GPT-4 のこの初期バージョンは、純粋に言語モデルであるにもかかわらず、抽象化、理解、視覚、コーディング、数学、医学、法律、人間の動機と感情の理解、もっと。
そしてそれを成功させるには:
しかし、たとえ最初のステップであっても、GPT-4 はマシン インテリジェンスについて広く受け入れられているかなりの数の前提に疑問を投げかけ、現時点ではそのソースとメカニズムを正確に識別するのが難しい新しい動作と機能を示します。<…>この文書を作成する際の私たちの主な目的は、技術的な飛躍が達成されたという評価を裏付けるために、GPT-4 の機能と限界についての調査結果を共有することです。私たちは、GPT-4 のインテリジェンスが、コンピューター サイエンスやその他の分野における真のパラダイム シフトを示すものであると信じています。
これらの声高な主張の背後には、モデルがどのように機能するかについての非常に興味深い分析と、さまざまな分野のさまざまな重要なタスクに関する GPT-4 と ChatGPT の結果の広範な比較があるため、この研究に時間を費やすことを強くお勧めします。
LLM の推論能力を適用して、トレーニング中にモデルによって学習されることが期待されていない特定の情報について結論を下す必要がある場合は、データをベクトル埋め込みとして保存するかどうかに関係なく、あらゆる種類の検索 (取得とランキングのメカニズム) を使用できます。 Faissのような ANN インデックス、または Elastic のような古い学校の全文インデックスを使用して、これらの検索結果をコンテキストとして LLM にフィードし、プロンプトに挿入します。それは、Bing 2.0 やBard (現在はPaLM2を搭載) の検索が現在行っていることと同じようなことです。
私は、この検索 + LLM 呼び出しシステムをDPRアーキテクチャで実装しました。ChatGPT が Reader モデルを置き換え、全文 Elastic 検索を使用しました。どちらの場合も、システム全体の品質は、保存されているデータの品質に依存します。インデックス— それが具体的で完全であれば、バニラの ChatGPT が提供するものよりも優れた答えを期待できます。
GPT を中心にスイス ナイフライブラリを作成し、それをベクトル データベースと呼び、それについて良い評価を上げた人もいます。本当に脱帽です。
ただし、GPT モデルのテキスト インターフェイスにより、使い慣れたツールを使用してそれを中心にあらゆるものを構築でき、アダプターは必要ありません。
さらなるモデルの進歩への手がかりを与える可能性のある疑問の 1 つは、これらの大規模なモデルが実際にどのように学習するのか、そしてその優れた推論能力がモデルの重みのどこに格納されるのかということです。
今週、OpenAI は、「言語モデルは言語モデル内のニューロンを説明できる」という論文と、LLM の層を剥がすことでこれらの質問に答えることを目的としたオープンソース プロジェクトを発表しました。その仕組み — 彼らは、ある知識領域で頻繁に活性化されるモデルのニューラル ネットワークの一部の活動を観察し、その後、より強力な GPT-4 モデルが、研究対象の LLM のこの特定の部分またはニューロンが何であるかについての説明を書き込みます。責任を負い、GPT-4 を使用して関連する多数のテキスト シーケンスに対する元の LLM の出力を予測しようとします。その結果、それぞれの説明にスコアが割り当てられます。
ただし、この手法にはいくつかの欠点があります。第一に、著者らが述べているように、彼らの方法では、研究された約 300,000 個のニューロンのうち 1,000 個のニューロンに対してのみ適切な説明が得られました。
論文の引用は次のとおりです。
しかし、GPT-4 ベースの説明と人間による請負業者の説明のどちらも、絶対的なスコアが依然として低いことがわかりました。ニューロンを観察すると、典型的なニューロンが非常に多義的に見えることもわかりました。これは、説明している内容を変更する必要があることを示唆しています。
2 番目の点は、この手法では現時点ではトレーニング プロセスをどのように改善できるかについての洞察が得られないということです。しかし、モデルの解釈可能性の研究という点では、これは良い取り組みです。
おそらく、研究されたニューロンが相互依存関係に基づいていくつかのクラスターに統合され、これらのクラスターが、異なるトレーニング手順によって変更される可能性のあるいくつかの動作パターンを示した場合、特定のモデルの機能がトレーニング データとどのように相関しているかについてある程度の理解が得られるでしょう。トレーニング方針。ある意味、このクラスタリングと分化は、特定のスキルを担当するさまざまな領域への脳の分割に似ている可能性があります。これにより、特定の新しいスキルを獲得するために LLM を効率的に微調整する方法についての洞察が得られる可能性があります。
もう 1 つのトレンドのアイデアは、ループ LLM を使用して自律エージェントを作成することです。Twitterには AutoGPT、AgentGPT、BabyAGIなどの実験がたくさんあります。アイデアは、そのようなエージェントの目標を設定し、他のサービスの API などの外部ツールを提供して、反復のループまたはモデルの連鎖を通じて望ましい結果を提供できるようにすることです。
先週、Huggingface は、有名なトランスフォーマー ライブラリのエージェントを次の目的でリリースしました。
「OpenAssistant、StarCoder、OpenAI などの LLM を使用して、GenerativeAI アプリケーションと自律エージェントを簡単に構築します。」 (c) フィリップ・シュミット
このライブラリは、自然言語で複雑なクエリに応答し、マルチモーダル データ (テキスト、画像、ビデオ、オーディオ) をサポートできるチェーン モデルと API へのインターフェイスを提供します。この場合のプロンプトには、エージェントの説明、一連のツール (主に他の狭いケースのニューラル ネットワーク)、いくつかの例、およびタスクが含まれます。エージェントは、エンジニア以外のユーザーにとってもモデルの使用を容易にしますが、LLM 上により複雑なシステムを構築するための良いスタート地点でもあります。ちなみに、これは Natural Language API です。これは、皆さんが知っているインターネットとは異なる種類のインターネットです。
ところで、最近 Twitter は AI を中心に非常に熱狂しており、誰もが LLM モデルの上に何かを構築し、それを世界に公開しています。業界でこれほどの熱意を見たことがありません。何が起こっているのかを調べたい場合は、Andrew Karpathy 氏の最近のツイートからウサギの穴に飛び込むことをお勧めします。
Github コパイロットを強化するCodex はしばらく前から存在していましたが、数日前、Colab Pro サブスクライバーである私は Google から 6 月にそうなるとの手紙を受け取りました (手紙の引用)
AI プログラミング機能を Colab に徐々に追加し始める 最初に登場するのは次のとおりです。
- コード補完のための単一行および複数行のヒント。
- 自然言語コード生成。コード生成リクエストを Google モデルに送信し、ノートブックに貼り付けることができます。
ところで、先週 Google はPaLM 2ファミリのモデルを発表しましたが、その中には Google のコーディングとデバッグに特化したモデルである Codey があり、これがおそらくこれらの発表された機能を強化することになるでしょう。
このセクションの締めくくりとして、2016 年頃に私が CV ではなく NLP を個人的に選択したのは、言語が人々が情報を伝達する普遍的かつ究極の方法であるという事実によるものであると言いたいと思います。私たちは言語の概念を使って考えることさえあるため、そのシステムは私たち自身と私たちの周囲の世界を定義するのに十分複雑です。そしてそれは、人間に近い、あるいはそれを超えた推論能力と意識を備えた、言語駆動型のシステムを生み出す可能性をもたらします。私たちは半年ほど前にその真の推論の表面をなぞったばかりです。私たちが今どこにいるのか、そしてこれから何が起こるのかを想像してみてください。
何らかの理由で、 waitbutwhy ブログの著者である Tim Urban のことをよく知らない場合は、2015 年付けのAGI に関する彼の投稿を読んでください。これが過去、つまり、LLM も Transformer も存在しなかったわずか 7 年前と比べてどうだったかを確認してください。モデルのいずれか。私たちが 7 年前にどこにいたかを思い出していただくために、ここで彼の投稿の数行を引用します。
チェスでどんな人間にも勝てるAIを作る?終わり。 6 歳児の絵本の一節を読んで、単語を認識するだけでなく、その意味も理解できるものを作りませんか? Googleは現在、これを実現するために数十億ドルを費やしている。
しかし、AGI を達成した後は、物事はより速いペースで動き始めるだろうと彼は約束します。これは、レイ・カーツワイルによって定式化された加速収益の法則によるものです。
レイ・カーツワイルは人類の歴史を「収益加速の法則」と呼んでいます。これは、より先進的な社会が、それほど先進的ではない社会よりも速い速度で進歩する能力を持っているため、つまりより進んでいるために起こります。
この法則を現在の LLM に適用すると、さらに進んで、インターネットに保存されているすべてのデータを学習して推論する能力によって、この超人的な記憶力が人間レベルの推論に達し、すぐに周囲の最も賢い人々がそのデータによって出し抜かれるだろうと言うのは簡単です。 1997 年にチェスのチャンピオン カスパロフがディープ ブルー コンピューターに敗北したのと同じ方法でマシンを攻撃しました。
これは人工超知能 (ASI) につながりますが、それがどのように見えるかはまだわかりません。 GPT-4 の人間によるフィードバック学習は人間レベルの推論のみを提供するため、おそらくそれをトレーニングするには別のフィードバック ループが必要になるでしょう。より優れたモデルがより弱いモデルを教える可能性が高く、これは反復的なプロセスになるでしょう。**単なる推測ですが、そのうちわかります。
Tim がAGI に関する投稿の後半で実際に概説していることは、この加速収益の法則により、システムが AGI を超える時点で私たちは気付かない可能性があり、その時には物事が私たちの理解から少し外れてしまうということです。
今のところ、テクノロジー業界で働く人のほんの一部の人だけが、進歩の実際のペースと、命令ベースの LLM チューニングがもたらす驚くべき可能性を理解しています。ジェフリー・ヒントン氏もその一人で、雇用市場の圧力、偽コンテンツの制作、悪意のある利用などのリスクについて公に語っている。私がさらに重要だと思うのは、複雑なスキルをゼロショットで学習できる現在のシステムは、人間よりも優れた学習アルゴリズムを備えている可能性があると彼が指摘していることです。
最新の LLM に対する懸念は、LLM が多くのタスクで大きな活用を提供する一方、これらのモデルを操作する能力 (事前トレーニング、微調整、意味のあるプロンプトの実行、デジタル製品への組み込みなど) が困難であるという事実から来ています。トレーニング/使用コストとスキルの両方の点で、社会全体で明らかに不平等です。 twitter や ハグフェイス コミュニティの人々の中には、OpenAI の覇権に代わる非常に有能なオープンソース LLM があると主張する人もいますが、それでも、それらはトレンドに従っており、それほど強力ではなく、さらに、それらを扱うには特定のスキルが必要です。そして、OpenAI モデルが非常に成功している一方で、Microsoft と Google はその研究にさらに投資して、それを阻止しようとするでしょう。ああ、メタも、ついに彼らがメタバースを手放すなら。
現在最も求められているスキルの 1 つはコードを書くことです。過去 20 年間、ソフトウェア エンジニアリングが技術シーンと給与を支配していました。コーディングのコパイロットの現在の状態では、ボイラープレート コードのかなりの部分が間もなく生成されるか、効率的にフェッチされて適応されるようです。これはユーザーにとっては同じように見えるため、開発者の時間を大幅に節約し、おそらく多少の時間がかかるでしょう。市場からの雇用機会。
AGI に関する非常に優れた投稿には、 AGI が自律的に自己改善できるように聞こえる別のアイデアがあります。今のところ、バニラ LLM はまだ自律的なエージェントではなく、決して意志の力を組み込んでいません。この 2 つの考え方が人々を怖がらせるのです。念のため。強化学習を含むモデルのトレーニング プロセスと人間によるフィードバックを混同しないでください。使用される RL アルゴリズムは OpenAI のProximal Policy Optimizationであり、最終モデルはトークン シーケンスを予測する Transformer からの単なる Decoder 部分です。
おそらく、私が引用したいくつかの論文が先週リリースされたことにお気付きかと思います。次の週には、この投稿で取り上げたかった新しいリリースやアイデアがもたらされると確信していますが、それは時代の兆しです。
私たちはソフトウェアの新時代に急速に突入しており、特異点に向けていくつかのステップを踏み出したようです。機械学習業界のイノベーションはすでに前例のないペースで起こっており、昨年は月に数回というペースで行われていました。大きなリリースがいくつかあるだけです。乗り心地をお楽しみください!
PS次の爆発は、Musk が Neuralink を通じて私たちを LLM に接続するときでしょう。
PPS 。このテキストを書くために OpenAI API 呼び出しは 1 つも行われていません。きっと。