586 測定値
586 測定値

設計による幻覚(パート 2):埋め込みの隠れた欠陥と AI が間違える理由

Ritesh Modi9m2025/04/01
Read on Terminal Reader

長すぎる; 読むには

これは、設計による幻覚に関するシリーズの第 2 部です。埋め込みがどのように幻覚を起こすかについての前回の議論の続きです。基本的に、推測と確証を区別できないモデルを扱っています。
featured image - 設計による幻覚(パート 2):埋め込みの隠れた欠陥と AI が間違える理由
Ritesh Modi HackerNoon profile picture
0-item

キャプション: 2 人の人物は見た目は異なりますが、姿勢、表情、背景には驚くほどの類似点があります。まるで、異なる文章が「埋め込まれて」、最後には近くに収まっているかのようです。


パート 1 はこちらでお読みください ( https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language )


先月、私は、否定や大文字化などの単純な言語のバリエーションを処理するときに埋め込みモデルが幻覚を起こす仕組みについて共有しました。反響は圧倒的で、どうやらこれらの問題で苦しんだのは私だけではないようです。今日は、テストを通じて発見したさらに厄介な盲点について深く掘り下げていきます。これらは、私が夜も眠れず、AI システムの構築方法のすべてに疑問を抱くような種類のものです。


これは、設計による幻覚に関するシリーズの第 2 部です。 埋め込みがどのように幻覚を引き起こすかについての前回の議論の続きです。この記事を最大限に活用するには、最初にリンクされた記事を読むことを強くお勧めします。この記事には、ここで説明されているアイデアを完全に理解するために必要な基礎概念が記載されています。そうすることで、シームレスな学習体験とトピックのより深い理解が得られます。

仮説と実際?詳細だけ!

ここから事態は本当に不安になります。 「治療が効けば症状は改善するはず」と「治療が効いて症状は改善した」を比較したところ、類似度スコアは 0.95 に達しました。私は信じられない気持ちで画面を見つめていました。一方は潜在的な結果を推測しているのに、もう一方は確認された結果を報告しているのです。


臨床研究文書の作成中にこの問題に遭遇しました。検索では、仮説的な治療結果と検証された結果を区別できませんでした。実証済みの治療法を探している医師は、実証されていない仮説を含むさまざまな結果を得ていました。治療の決定を下す医師は、推測と証拠を混同することを好んでいると思いますか? 私は、自分の医療が「効果がある」ではなく「効果があるかもしれない」に基づいていることを望んでいないはずです。


もう一度、仮説と事実を区別することが不可欠なすべてのケースについて考えてみましょう。科学研究、医療試験、判例、投資分析などです。モデルが「X の場合、Y の可能性がある」と「X が発生し、Y を引き起こした」を混同すると、情報の認識論的ステータスを完全に誤解していることになります。基本的に、テキストを分析して、この区別によって信頼できる情報か単なる推測かが決まるにもかかわらず、推測と確認の違いを区別できないモデルを扱っていることになります。

時間順?どんな順番でも構いません!

埋め込みモデルは、「彼女は就職する前に学位を取得した」と「彼女は学位を取得する前に就職した」をほぼ同一と見なします。類似度スコアはなんと 0.97 です。一方は伝統的なキャリア パスで、もう一方は勉強しながら働いています。まったく異なる状況です。


履歴書スクリーニング システムを構築しているときに、このことに気付きました。埋め込みでは、就職前に学位を取得した候補者と、まだ学業を終えていない候補者を区別できませんでした。採用担当者は、基本的な資格要件を満たしていない候補者との面接に何時間も費やしていました。忙しい採用担当者が、適さない候補者に時間を浪費されることを喜ぶと思いますか? 採用パイプラインがノイズでいっぱいになることは、絶対に望んでいません。


順序が極めて重要なすべてのケースについて考えてみましょう。たとえば、医療処置のプロトコル、法的手続きの要件、料理のレシピ、組み立て手順、化学配合などです。モデルが「A が B の前」と「B が A の前」を区別できない場合、基本的な因果関係が失われます。基本的に、重要な順序情報が満載のテキストを分析しているにもかかわらず、時間をオプションの概念として扱うモデルを扱っていることになります。

定量的な閾値は消え去る

これを見て、私は思わずコーヒーをこぼしてしまいました。埋め込みモデルでは、「会社は収益予想をわずかに上回った」と「会社は収益予想を大幅に下回った」が驚くほど似ていると判断され、類似度スコアは 0.93 です。上回った vs 下回った! 金融の世界では、これらは正反対の意味を持ちます。


金融ニュース分析システムを構築している場合、埋め込みはプラスとマイナスの収益サプライズ、つまり文字通り株価の上昇と下落の違いを区別しません。私たちの要約に基づいて取引の決定を下す投資家は、完全に矛盾した情報を得ていました。実際のお金を危険にさらす人々が、根本的に間違った市場シグナルを得ることを喜ぶと思いますか? 私は、自分の退職金口座がそのような混乱に左右されることを望まないでしょう。


さて、しきい値を超えるとすべてが変わるすべてのケースについて考えてみましょう。合格と不合格、バイタルサインの健全性と危険性、収益性の高い事業と収益性の低い事業、規制に準拠しているかどうかなどです。目標をかろうじて達成した場合と完全に達成できなかった場合を区別できない場合、モデルは意味のある区別を行う能力を失います。基本的に、目標が達成されたか達成されなかったかを常に議論しているテキストを分析しているにもかかわらず、しきい値の概念を理解していないモデルを扱っていることになります。

スカラー反転は完全に反転する

不条理はどんどん積み重なっていきます。テスト中に、 「会議は予定より大幅に短くなりました」と「会議は予定より大幅に長くなりました」の類似度が 0.96 であることがわかりました。私は完全にショックを受けました。これらの文は、節約された時間と無駄になった時間という、まったく逆の状況を表しています。


私はプロジェクト管理文書でこれに遭遇しました。検索では、スケジュールの超過と効率を区別できませんでした。時間節約テクニックの例を探しているマネージャーには、深刻な遅延のあるプロジェクトが表示されていました。プロジェクトのタイムラインを追跡している幹部は、求めていた情報とまったく逆の情報を得ることを喜ぶでしょうか? このような過去のデータで役員会議の準備をしていたら、私はきっと激怒するでしょう。


スケールの方向性が重要なすべてのケースについて考えてみましょう。コスト削減と超過、パフォーマンスの向上と低下、健全性の向上と低下、リスクの増加と減少などです。モデルが「よりはるかに高い」を「よりはるかに低い」と交換可能なものとして扱う場合、方向の変化を追跡する能力が失われます。基本的に、比較評価で満たされたテキストを分析しているにもかかわらず、反対の方向を理解しないモデルで作業していることになります。

ドメイン固有の反対語は同義語のように見える

医療文書

ヘルスケア テストで見たものが信じられませんでした。 「患者は頻脈を呈している」と「患者は徐脈を呈している」の類似度スコアは 0.94 でした。医療関係者でない人にとっては、これは鼓動が速い心臓と危険なほど遅い心臓を混同するようなものです。つまり、治療法が正反対の症状なのです。


私は、電子医療記録の症状マッチング システムに取り組んでいるときに、このことを発見しました。埋め込みモデルは、根本的に異なる病状を区別できず、反対の治療が必要です。心臓がドキドキする患者に似た症例を探している医師は、危険なほど心拍が遅い患者の症例を示しました。時間に敏感な決定を下す医師は、矛盾した臨床情報を得ることを喜ぶと思いますか? 私は、実際の病状と反対の治療を受けたくはないはずです。


医療の分野では、こうした区別は重大な結果をもたらす可能性があります。頻脈はベータ遮断薬で治療できるかもしれませんが、徐脈にはペースメーカーが必要になるかもしれません。間違った治療をすると、命に関わることもあります。基本的に私たちは、この区別によって適切な治療が決まるテキストを分析しているにもかかわらず、正反対の病状を区別できないモデルを扱っているのです。

法的文書

法的テストも同様にひどいものでした。 「原告が立証責任を負う」と「被告が立証責任を負う」を比較すると、モデルは驚くべき 0.97 の類似度を返しました。よく考えてみてください。これらの文は文字通り、法廷でどちらの側が自分の主張を立証しなければならないかを決定します。これらを混同すると、訴訟に負ける可能性があります。


検索では、根本的に異なる法的基準と責任を区別できませんでした。原告の負担に関する判例を調査している弁護士には、被告の負担について議論している事例が示されました。裁判の準備をしている弁護士は、まさに時代遅れの法的基準を知ることに感謝すると思いますか? 私は、自分の訴訟が完全に逆転した法的原則に基づいていることを望まないでしょう。


法的な文脈では、立証責任を誰が負うかが訴訟の結果を決めることがよくあります。モデルがどちらの当事者にどの責任があるかを区別できない場合、法的推論の基礎全体が損なわれます。基本的に、これらの区別が正義の機能を定義するテキストを分析しているにもかかわらず、法的役割を混同するモデルを扱っていることになります。

測定単位

結果が信じられなかったので、このテストを何度も実行する必要がありました。 「手続きには約 5 分かかります」と「手続きには約 5 時間かかります」の類似度は、なんと 0.97 でした。これは本当でしょうか? 60 倍の時間差です! 「5 分」の予定を待つのに、実際には 5 時間もかかることを想像してみてください。


同じ医療システムを構築しているときに、このことに気付きました。埋め込みでは、短時間の処置と長時間の処置を区別できませんでした。短時間の処置を予定しているクリニックの管理者には、手術室を丸一日ブロックする長時間の手術が表示されていました。スケジュールの制約が厳しい医療施設は、一日のワークフローが中断されることを喜ぶでしょうか? 病院のスケジュールが 60 倍遅れることは絶対に望んでいません。


測定単位は根本的に意味を変えます。モデルが「5 分」と「5 時間」を本質的に同一として扱う場合、大きさを理解する能力が失われます。基本的に、単位によって些細なことか重要なことかが決まるテキストを分析しているにもかかわらず、単位を無視するモデルで作業していることになります。

さらなる測定問題

そして、状況はさらに悪化します。同じ医療文書を使用したところ、 「腫瘍の直径は 2 センチメートルです」と「腫瘍の直径は 2 インチです」の類似度は驚くべき 0.98 でした。文脈上、これは潜在的に軽微な腫瘍と 2.54 倍大きい腫瘍の違いであり、多くの場合、「経過観察」と即時手術の境界となります。


埋め込みではメートル法とヤードポンド法の測定単位を区別できませんでした。小さな腫瘍の治療オプションを研究している腫瘍専門医は、はるかに大きな腫瘍の症例を見せられていました。がん専門医は、患者とはまったく比較できない症例研究を受けることを喜ぶと思いますか?


速度制限さえも混乱します。モデルは「時速 30 マイル未満の速度を維持する」と「時速 30 キロ未満の速度を維持する」を非常に類似しているとみなします。類似度スコアは 0.96 と問題があります。これは時速 30 マイルと 18.6 マイルの違いであり、事故が致命的かどうかを判断するのに十分です。


単位の変換は単なる数学的な作業ではありません。推奨事項、安全性のパラメーター、および結果を根本的に変更します。基本的に、単位によって意味が完全に変わるテキストを分析しているにもかかわらず、単位のない数値で十分であると考えるモデルを扱っています。

真実と結果

以下は、msmarco-distilbert-base-tas-b、all-mpnet-base-v2、open-ai-text-embedding-3-large の比較です。これらのモデルの出力に大きな違いがないことがわかります。


 ***msmarco-distilbert-base-tas-b embedding score across different test cases*** 

 ***all-mpnet-base-v2 embedding score across different test cases*** 

 ***openai-text-embedding-3-large embedding score across different test cases***

繰り返しますが。

こうした問題があるにもかかわらず、埋め込みは驚くほど便利です。埋め込みの使用に反対しているわけではありませんが、慎重に取り組むことが重要だということです。数十のプロジェクトと数え切れないほどの失敗を経て、私が実践してきたアドバイスは次のとおりです。


  1. 展開前に、実際のユーザー言語パターンでモデルをテストします。学術的なベンチマークや、サニタイズされたテスト ケースではなく、ユーザーがどのようにコミュニケーションするかの実際の例です。否定、タイプミス、数値の違いなどの一般的なバリエーションをシミュレートする「言語ストレス テスト」ツールキットを構築しました。テストするすべてのシステムは、いくつかの領域で失敗します。問題は、それらの領域が特定のアプリケーションにとって重要であるかどうかです。


  2. 重大な盲点の周囲にガードレールを構築します。アプリケーションによって、失敗が許されない要件は異なります。医療の場合、通常は否定とエンティティの精度です。金融の場合、数値と時間的関係です。法律の場合、条件と義務です。自分のドメインで絶対に失敗してはいけないことを特定し、特別な保護策を実装します。


  3. 埋め込みにすべてを賭けるのではなく、さまざまなテクニックを重ねます。当社の最も成功したシステムは、埋め込みベースの検索とキーワード検証、明示的なルール チェック、重要な区別のための特殊な分類器を組み合わせています。この冗長性は非効率的ではなく、不可欠なものです。

  4. システムが確実に実行できることと実行できないことをユーザーに対して透明性を持って伝えます。結果に否定、数値比較、その他の潜在的な弱点が含まれる可能性がある場合に明示的にフラグを付ける信頼スコアを追加しました。ユーザーはこの正直さを評価し、システム全体に対する信頼を構築します。


**私が学んだ最も重要なことは、**これらのモデルは人間のように言語を理解しません。統計的なパターンを理解します。人間のような理解を期待するのをやめ、特定の盲点を持つ洗練されたパターンマッチングツールとして扱い始めたとき、私のシステムは改善されました。はるかに改善されました。

私が説明した盲点は、すぐには消えません。これらのモデルの動作方法に組み込まれているからです。しかし、盲点があることがわかれば、それを考慮して設計することができます。そして、時には、限界を認めることが、それを克服するための第一歩となることもあります。


: 実験を通じてこのような事例が他にもたくさん見つかりました。それについては、次の投稿で取り上げる予定です。

次回の続きは近日公開予定です。お楽しみに!!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks