数カ月ごとに、誰かが「AIは私たち全員を置き換える」と宣言しています。 よく働いているので、いつもその質問をします。 しかし、もっとよく見てください:AIは置き換えません。 それは、置き換え そして、大きな違いがあります。 people tasks LLMs Are Parrots With Jet Engines ジェットエンジン ChatGPT、Claude、DeepSeekなどの大きな言語モデルは、次のトークンを非常に説得力を持って予測するように構築されており、誰かがそれを書いたように感じます。 だが、善良なのに、 is not the same as . sounding right being right これらのモデルは、書籍、記事、コードレポ、ウィキペディア、フォーラムの投稿、およびスクラップされたウェブページの混合から学びます。それらのいくつかは、 peer-reviewedです。そのほとんどはそうではありません。編集者の軍隊はすべての行の真実をチェックしません。データは矛盾、偏見、時代遅れの事実、および単純な捏造で謎に包まれています。これをすべての医学教科書から学ぶ薬のように考えます...そしてすべての健康フォーラム、すべてのホロスコープブログ、およびいくつかのレシピサイトの良い測定のために。モデルはパターンを見ますが、それはそうではありません。 」のパターンが現実を反映しているだけで、コンセンサス言語を模するのがとても上手です。 know なぜそれが重要なのか、はじめて見ました。 Quality Over Quantity 質より量 2016年、私はマシン学習プロジェクトで、覆われたマルウェアを検出するために働きました。Microsoftはこの問題のための公開のKaggleデータセット(Microsoft Malware Classification Challenge)を持っていました。 数ヶ月間、私は毎日マルウェアをダウンロードし、サンドボックスでサンプルを実行し、バイナリをリバースエンジニアリングし、それらを自分自身でラベルアップしました。 結果は大声で語った: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Microsoft Kaggle データセット 53% 自分の手作りのデータセット 80パーセント My Dataset + 合成データ 64% 同じアルゴリズム、同じパイプライン、データだけが変わった。 ポイント:最高のパフォーマンスは、手動で、専門家が調べたデータから来ました。公開データには異常が含まれ、合成データは独自の歪みを導入しました。 それは、LLMがどのように訓練されているかとは正反対です:彼らはすべてをカットし、それから学び、異常やすべてを試みます。 ソーシャルメディアに投稿されたChatGPTからの単一の幻覚は、共有され、リツイートされ、再パッケージされ、次のトレーニングセットに戻って食べられるようになります。 . digital inbreeding LLMsが到着する前に、インターネットはすでに低品質のコンテンツでいっぱいでした:偽ニュース、フィクションの「how-tos」、壊れたコード、スパムなテキスト。 現在、主に自動フィルター、一部の人間レッドチーム、および内部スコアシステムがあります。 規模のピアレビューに等しいものはなく、ライセンスボードもなく、悪いデータに対する責任もありません。 新しい「データ」はどこから入手できますか? つまり、明らかな疑問につながる: 公共のウェブがすでに奪われ、汚染され、ますます合成されているとき? where do we find fresh, high-quality training data ほとんど誰もが持っている最初のアイデアは、 「我々は独自のユーザーデータをトレーニングするだけだ」 2023年、私は私のgamedevのスタートアップでまさにそれを試みました。 ベータテストのログは完璧なトレーニング材料であると考えた:正しいフォーマット、リアルな相互作用、私たちのドメインに直接関連する。 Fortune Folly キャッチ? 単一のテストでは、15人の普通のユーザーより多くのデータを生成したが、それらがより豊かな世界を構築していたからではない。彼らは、セクハラコンテンツ、爆弾作りのプロンプト、人種差別主義的な反応にシステムを駆り立てようとし続けていた。 無視され、そのデータは それは攻撃者を模することを学び、我々が奉仕しようとしていたコミュニティではない。 毒 これはまさにその アクティブな人間のレビューとキュレーションがなければ、「実際のユーザーデータ」は、人間の入力の最悪ではなく、最良のものを暗号化することができ、あなたのモデルはそれを忠実に再現します。 data-poisoning problem 「Takeaway」 ChatGPTは「置き換え」への第一歩にすぎないが、実際には自然言語の専門家である。 未来は、まるで 細心の注意を払ったデータセットで訓練された、より深いドメイン特有のモデルと対話するために、それらのモデルでさえ、引き続き常に更新、検証、そして人間の専門知識が必要になりますが、経験豊富な専門家を置き換えることはありません。 interface 真の「置き換えの脅威」は、我々が全体を構築することができれば来るだろう。 : リアルタイムでデータを収集するスクラッパー、それを検証し、事実をチェックするレビューモデル、そしてこのクリーンな知識を摂取する専門モデル。 fabric of machine learning systems しかし、私たちは今、すでに大量のエネルギーを燃やすだけで、人間のような文を生成します。リアルタイムで必要とされるレベルまでスケールするには、完全にレビューされた専門知識は、私たちが現実的に提供できるよりも多くのコンピューティングパワーとエネルギーを必要とします。 インフラストラクチャが存在するとしても、誰かがまだ専門的なデータセットを構築しなければなりませんでした。私は医学で有望な試みを見たが、それぞれは、データの構築、清掃、検証に無数の時間を費やした専門家のチームに頼っていました。 言い換えれば、 AI may replace tasks, but it’s nowhere close to replacing people.