スケールAIへの143億ドルの投資は、AIデータの品質と信頼に関する継続的な議論を強化しました - 時にはMetaとスケールを悪く反映する方法で、しかし間違いなく重要な方法で。 2025年6月に発表されたこの投資により、MetaはAIデータラベル化スタートアップの49%の非投票株を獲得しました。 新たな「スーパーインテリジェンス」部門を率い、それに続いたのは、AIエコシステム全体の根本的な脆弱性を暴露したサプライチェーンの災害だった。 CEOのアレクサンドル・ワン氏を辞任 CEOのアレクサンドル・ワン氏を辞任 数日後、Google、OpenAI、xAIを含む主要なクライアントは、スケールAIとの関係を断ち切り始め、ある競合相手が「スケールAI」と表現したことを引き起こした。 」 ロシアとヨーロッパの間で石油パイプラインが爆発するのと同じくらいです。 ロシアとヨーロッパの間で石油パイプラインが爆発するのと同じくらいです。 この結果は、AI開発の未来を形作る2つの重要な分野に新たな焦点を当てた:パートナーシップをサポートする信頼インフラストラクチャと高品質なトレーニングデータの需要の増加。 AI開発への信頼の必要性 スケールはその評価を単純で強力な提案に基づいて構築していた:データラベル化市場で中立的な仲裁者として機能し、ほぼすべての主要なAIラボにサービスを提供し、お気に入りのプレーをすることなく、その中立性はスケールの最も価値のある資産であり、Google、OpenAI、Microsoftのような企業が、競合するライバルに競争インテリジェンスの漏洩を心配することなく、重要なデータ準備作業をアウトソーシングすることができます。 メタの投資は一晩で信頼を崩し、スケールの競合企業ハンドシェイクのCEOであるガレット・ロード(Garrett Lord)は、 「もしあなたがジェネラルモーターズやトヨタなら、あなたの競争相手があなたの製造工場に入ってあなたのプロセスをどのように実行しているかを見ることを望まない」 説明 説明 スケールの最大の顧客であるGoogleは、2025年にスケールのサービスに約2億ドルを支出する計画を持っている。 オープンAIは、数ヶ月間にわたる関係を終わらせていることを確認しました。xAIはプロジェクトを停止させました。 immediately began planning to sever ties つながりを断ち切る計画をすぐに始めた。 しかし、信頼の危機は競争の懸念よりも深いものでした。Business Insiderのその後の調査は、スケールAIが 上位顧客の仕事を追跡し、何千ページもの機密プロジェクト文書をリンクのある誰にでもアクセスできるようにします。暴露された資料には、Googleが苦労しているBardチャットボットを改善するためにChatGPTを使用した方法、xAIのプロジェクトXylophoneのトレーニング文書、Metaの独自の機密AIトレーニング材料についての敏感な詳細が含まれています。 公共のGoogleドキュメントを使用していた 公共のGoogleドキュメントを使用していた セキュリティの脆弱性はスケールの従業員に広がり、公的な文書には、数千人の契約者のプライベートメールアドレス、賃金情報、およびパフォーマンス評価が含まれており、サイバーセキュリティの専門家はスケールの慣行を「極めて信頼できない」とし、そのような脆弱性が企業と顧客をさまざまな形態のサイバー攻撃にさらす可能性があると警告した。 スケールは徹底的な調査を実施し、公的な文書共有を無効にすることを誓った。 . しかし、被害は行われていた。 データ品質の課題 信頼がトップページを支配している一方で、メタスケールの合意はさらに根本的な課題を強調した:AIの開発を制限する脅威となる高品質なトレーニングデータの不足が増加している。 データ品質の危機は量的にも質的にもあるが、Epoch AIの研究によると、 約300兆トークンと推定されたトークンは、2026年から2032年にかけて枯渇する可能性があるが、問題は単純な不足よりも深い。 トレーニングデータの品質を損なう「真実性の危機」を生み出す。 Human-Generated Public Text Data(ヒューマン生成の公開テキストデータ) オンラインコンテンツの57%は現在AIによって生成されています。 Human-Generated Public Text Data(ヒューマン生成の公開テキストデータ) オンラインコンテンツの57%は現在AIによって生成されています。 合成コンテンツの拡散は悪循環を生み出す。AI生成データで訓練されたAIモデルは、研究者が呼ぶものに苦しんでいる。 初期モデル崩壊は、少数データとエッジケースに影響を与え、後期モデル崩壊は、モデルがほとんどの差異性を失い、基本的な概念を混乱させ始めるにつれて、モデルを特に役に立たないものにすることができます。 モデル崩壊 モデル崩壊 解決策は、知識を訓練し、AIアプリケーションの品質チェックに適用するトピックの専門家に頼ることである。例えば、医療におけるAIモデルは、業界の実践者の心の中にある深い洞察力が必要です。 . 企業の81パーセントが、データの品質に重大な問題があると述べているのは不思議ではありません。 企業の81パーセントが、データの品質に重大な問題があると述べているのは不思議ではありません。 Scale AIのビジネスモデルは、画像、テキスト、ビデオを手動で注釈する240,000人以上のサプライヤーのグローバルネットワークを通じてこれらの課題を解決することに基づいていますが、同社の内部文書は、セキュリティ侵害を超える品質管理の問題を明らかにしました。 」 transparently shoddy work that managed to evade detection(検出を回避することに成功した) transparently shoddy work that managed to evade detection(検出を回避することに成功した) チャットGPT後のAIブームの間に主要顧客にサービスを提供するための圧力は、品質管理における妥協につながった。専門家による専用のプログラムは、内部文書によると「スパムに満ちた」ものとなった。 リップルはAI生態系全体に及ぼす影響 メタスケールの議論は、企業が単一のプロバイダーへの依存を減らすために戦っているため、市場の分散化を加速させた。 ちなみに、これは悪いことではありません。 競争は良いものです。 この分断はまた、企業がデータプロバイダーを慎重に検査する必要があるという広範な認識を反映しています、特に一つの漏れがAIインフラストラクチャを損なう可能性があるためです。 AI 開発は関係の複雑なウェブに依存しています。 データの完全性、ベンダーの中立性、および競争インテリジェンスは、サプライチェーン全体を迅速に不安定化させることができる方法で交差します。 AI インフラストラクチャの決定は、技術的パフォーマンスメトリックをはるかに超えるリスクを伴います。 一方で、AI トピックの専門知識を備えたトレーニングに協力する企業やデータファイヤーは、今 Scale Competitors Report Dramatic Increases in Demand (スケール競争相手は需要の劇的な増加を報告している) Scale Competitors Report Dramatic Increases in Demand (スケール競争相手は需要の劇的な増加を報告している)