paint-brush
LLM の長所、短所、リスクの分析@minio
8,812 測定値
8,812 測定値

LLM の長所、短所、リスクの分析

MinIO5m2024/04/02
Read on Terminal Reader

長すぎる; 読むには

Large Language Model (LLM) は、人間と同じような知性を持つコンピューター プログラムです。 LLM の強みは、LLM を作成するために使用されたトレーニング セット内の単語の確率分布を理解するようにトレーニングされていることです。このような人間らしい結果を達成するには、データと強力なデータ ストレージ ソリューションが必要です。
featured image - LLM の長所、短所、リスクの分析
MinIO HackerNoon profile picture


最近、大規模言語モデル (LLM) の素晴らしさについて多くのことが言われています。これらの賞賛のほとんどは当然のことです。 ChatGPT に一般相対性理論について説明してもらうと、非常に優れた (そして正確な) 答えが得られます。しかし、結局のところ、ChatGPT は依然として (他のすべての LLM と同様に) 命令セットを盲目的に実行するコンピューター プログラムです。一般相対性理論をあなたのお気に入りのペットと同じくらい理解しています。残念なことに、私たちはエンジニアがそれらを作成するために使用する技術を説明するのに、「機械学習」や「トレーニング」など「人間らしい」言葉を使用します。 LLM は人間のような心を持っていないため、これは誤解を招きます。


ここにはある種の皮肉があります。思考を持たないチャットボットが、史上最も賢い人の調査結果をどのようにして正しく要約できるのでしょうか? LLM のこの矛盾した性質を理解するために、強み、弱み、危険性の観点から LLM をさらに詳しく調査し、データと MinIO のようなストレージ ソリューションを使用して最初の要素を活用し、他の 2 つを緩和する方法を見てみましょう。これらは、すべてのエンジニアが組織で LLM をトレーニング、テスト、展開する際に頭の片隅に入れておくべきテクニックです。

強さ

LLM の強みは、LLM を作成するために使用されたトレーニング セット内の単語の確率分布を理解するようにトレーニングされていることです。トレーニング セットが十分に大きければ (つまり、Wikipedia の記事のコーパスや GitHub 上の公開コードなど)、モデルには語彙と対応する確率分布があり、その結果はあたかも現実世界を理解しているかのように見えます。彼らが出力するテキスト。別の例をさらに詳しく調べてみましょう - 今回は哲学からのものです。 ChatGPT に「『cogito, ergo sum』とは何を意味しますか? それを書いたのは誰ですか?」という質問をしてください。以下のテキストのような内容が表示されます。


「コギト、エルゴ・スム」はラテン語の哲学的命題で、英語では「我思う、故に我あり」と訳されます。この発言は、フランスの哲学者、数学者、科学者であるルネ・デカルトに関連していることで有名です。デカルトは、1637 年に出版された著書『方法論』の中でこの考えを表現しました。この言葉は、疑うことのできない根本的な真実、つまり思考する存在としての自分自身の存在の確実性を確立しようとするデカルトの試みを反映しています。


LLM は確率分布を使用して次のような結果を生成します。これは次のように機能します。まず質問内のテキストを調べ、「Cogito」という単語が答えの最初の単語である可能性が最も高いと判断します。そこから、質問と回答の最初の単語を調べて、次に出現する可能性が最も高い単語を決定します。これは、特別な「回答終了」文字が最も高い確率で決定されるまで続きます。


何十億もの確率に基づいて自然言語応答を生成するこの能力は恐れるものではなく、むしろビジネス価値のために活用されるべきものです。最新の技術を使用すると、結果はさらに良くなります。たとえば、検索拡張生成 (RAG) や微調整などの手法を使用して、特定のビジネスについて LLM に教えることができます。このような人間らしい結果を達成するにはデータが必要であり、インフラストラクチャには強力なデータ ストレージ ソリューションが必要です。


これらのネクスト トークン予測機能は、チャットボットやマーケティング コピーに最適なテキストを生成するために使用できるだけでなく、アプリケーション内で自動化された意思決定を可能にするためにも使用できます。問題ステートメントと呼び出すことができる API (「関数」) に関する情報を含む、巧妙に構成されたプロンプトが与えられると、LLM が言語を理解すれば、どの「関数」を呼び出す必要があるかを説明する答えを生成できるようになります。たとえば、会話型天気予報アプリで、ユーザーは「今夜フェンウェイ パークに行く場合、レイン ジャケットは必要ですか?」と尋ねることができます。いくつかの賢いプロンプトを使用すると、LLM はクエリ (マサチューセッツ州ボストン) から位置データを抽出し、Weather.com Precipitation API へのリクエストをどのように作成できるかを決定できます。


長い間、ソフトウェアの構築で最も困難な部分は、自然言語と API 呼び出しなどの構文システムの間のインターフェイスでした。皮肉なことに、これは最も単純な部分の 1 つかもしれません。テキスト生成と同様に、LLM 関数呼び出し動作の品質と信頼性は、ヒューマン フィードバックによる微調整と強化学習 (RLHF) の使用によって支援できます。

LLM が得意なこととその理由を理解したところで、LLM ができないことを調べてみましょう。

弱点

LLM は考えることも、理解することも、推論することもできません。これが LLM の基本的な制限です。言語モデルには、ユーザーの質問を推論する機能がありません。これらは、ユーザーの質問に対して非常に適切な推測を生成する確率マシンです。何かがどれほど優れた推測であっても、それは依然として推測であり、これらの推測を生み出すものはすべて、最終的には真実ではないものを生み出すことになります。生成 AI では、これは「幻覚」として知られています。


正しく訓練すれば、幻覚を最小限に抑えることができます。微調整と RAG により、幻覚も大幅に軽減されます。結論としては、モデルを正しくトレーニングし、微調整し、関連するコンテキスト (RAG) を与えるには、データと、それを大規模に保存し、パフォーマンスの高い方法で提供するためのインフラストラクチャが必要です。


LLM のもう 1 つの側面を見てみましょう。LLM をテストする能力に影響を与えるため、これを危険として分類します。

危険

LLM の最も一般的な用途は生成 AI です。生成 AI は、既知の結果と比較できる特定の答えを生成しません。これは、簡単にテストできる特定の予測を行う他の AI ユースケースとは対照的です。画像の検出、分類、回帰のためのモデルをテストするのは簡単です。しかし、生成 AI に使用される LLM を、公平かつ事実に忠実でスケーラブルな方法でテストするにはどうすればよいでしょうか?あなた自身が専門家でない場合、LLM が生成する複雑な答えが正しいことをどうやって確認できるでしょうか?たとえ専門家であっても、CI/CD パイプラインで行われる自動テストに人間のレビュー担当者が参加することはできません。


業界には役立つベンチマークがいくつかあります。 GLUE (一般言語理解評価) は、LLM のパフォーマンスを評価および測定するために使用されます。これは、人間の言語を処理するモデルの能力を評価する一連のタスクで構成されます。 SuperGLUE は、より困難な言語タスクを導入する GLUE ベンチマークの拡張機能です。これらのタスクには、共参照の解決、質問応答、およびより複雑な言語現象が含まれます。


上記のベンチマークは役に立ちますが、ソリューションの大部分は独自のデータ収集である必要があります。すべての質問と回答を記録し、カスタム結果に基づいて独自のテストを作成することを検討してください。これには、拡張性とパフォーマンスを考慮して構築されたデータ インフラストラクチャも必要になります。

結論

そこにあります。 LLM の長所、短所、および危険性。最初の 1 つを活用し、他の 2 つを軽減したい場合は、大量のデータを処理できるデータとストレージ ソリューションが必要になります。