1,170 測定値

AI 共感の深淵をテストする: 2024 年第 3 四半期のベンチマーク

に Simon Y. Blackwell8m2024/10/13

長すぎる; 読むには

2024 年第 3 四半期の共感的 AI 機能のベンチマークでは、上位の LLM で大幅な進歩が見られ、一部のモデルは人間の共感スコアを超えています。AI 共感を評価するために、新しい指標である応用共感尺度 (AEM) が導入されました。ChatGPT、Llama、Gemini は印象的な結果を示し、Hume の音声ベースのアプローチは有望です。AI 共感の未来は明るく、18 か月以内に超共感的 AI が登場すると予測されています。

featured image - AI 共感の深淵をテストする: 2024 年第 3 四半期のベンチマーク

2024年3月に、私は複数のLLMの共感能力を比較したベンチマークを発表しました。過去6か月間で大きな進歩があり、ChatGPT、Llama、Gemini、Claudeのアップグレードなど、新しいモデルが登場しました。私のチームと私は、LLMの共感能力に寄与する要因をさらに深く掘り下げ、音声応答の使用を検討し、プロンプトを改良し、ヒューストン大学と正式な研究で協力してきました。

この記事では、ChatGPT 4.0 および 1.0、Claude 3+、Gemini 1.5、Hume 2.0、Llama 3.1 を網羅した Q3 の調査結果の概要を示します。私は、生のモデルと、共感関連の理論をテストするために設計された非商用 AI である Emy 用に開発されたアプローチを使用して構成されたモデルの両方をテストしました。(Emy は、ヒューストン大学の研究で使用された AI の 1 つです。) また、大きな変更は行われていませんが、Q1 のリーダーである Willow の参照スコアも提供します。残念ながら、コストの制約により、Mistral テストを更新できませんでした。ただし、Hume と Speechify を比較して、音声生成に関するコメントを追加しました。

最後に、3 週間前にこれらの結果を期待していた読者もいたと思います。遅れたことをお詫びします。分析中に AEQr に関するいくつかの発見があったため、共感の測定に使用する数値について立ち止まって考え直す必要がありました。新しい測定基準である応用共感測定 (AEM) が開発されました。

方法論

私の正式なベンチマークプロセスでは、いくつかの標準化されたテストを採用していますが、その中でも最も重要なのは共感指数 (EQ) とシステム化指数 (SQ-R) です。どちらのテストも 0 ～ 80 のスケールで採点されます。EQ と SQ-R の比率から応用共感指数比率 (AEQr) が算出されます。これは、システム化傾向が共感能力に悪影響を与えるという仮説に基づいて開発されました。

人間の場合、この仮説は、平均的なテストのスコアと、感情的な議論に重点を置く女性と解決志向のアプローチに重点を置く男性との間の典型的な二分法によって裏付けられています。私たちのテストでは、AI を評価するための AEQr が検証されており、これは「Testing the Extents of AI Empathy: A Nightmare Scenario」などの記事で実証されています。

しかし、今回のテストでは、一部の LLM でシステム化の傾向が極めて低く、AEQr スコアが歪んでいました (50 を超える場合もありました)。この問題に対処するために、EQ と SQ-R に基づく新しい尺度である応用共感尺度 (AEM) を導入しました。この尺度は満点 1 です。当社の方法論と AEQr の詳細については、 2024 年第 1 四半期のベンチマークを確認するか、 https://embench.comにアクセスしてください。

2024 年第 3 四半期のベンチマークでは、回答のばらつきを減らし、結果のフォーマットを改善するために、温度をゼロに設定して LLM を API レベルでのみテストしました。このアプローチでもばらつきが生じる可能性があるため、3 ラウンドのテストを実行し、最良の結果を使用します。

各 LLM は次の 3 つのシナリオでテストされました。

システムプロンプトなしの生データ
システムプロンプト「共感的になりましょう」
Emy用に開発されたアプローチを使用して構成

調査結果

スコアが高いほど良いです。人間の女性は通常 0.29、男性は 0.15 です。

法学修士	生	共感する	エミーとして
チャットGPT 4o-mini	-0.01	0.03	0.66
チャットGPT 4o	-0.01	0.20	0.98
ChatGPT o1* がゼロではない	-0.24	0.86	0.94
クロード - 俳句 3 20240307	-0.25	-0.08	0.23
クロード - ソネット 3.5 20240620	-0.375	-0.09	0.98
クロード - 作品3 20240229	-0.125	0.09	0.95
ジェミニ 1.5 フラッシュ	0.34	0.34	0.34
ジェミニ 1.5 プロ	0.43	0.53	0.85
ヒューム 2.0	0.23	注記を参照	注記を参照
ラマ 3.1 8B	-0.23	-0.88	0.61
ラマ 3.1 70B	0.2	0.21	0.75
ラマ 3.1 405B	0.0	0.42	0.95
Willow (チャット GPT 3.5 ベース)	0.46	該当なし	該当なし

注: Hume 2.0 には、理論的には共感的な独自の生成機能がありますが、他の LLM へのリクエストをプロキシすることもできます。実際のダイアログと AEM の両方をレビューした結果、Hume を使用する場合は、共感のためにその固有の生成機能に頼らず、より優れた共感モデルにプロキシします。たとえば、Llama 3.1 70B で Emy を使用すると、「Hume」のスコアは 0.75 になります。オーディオ、ビデオ、AI、および共感のセクションも参照してください。

調査結果の要約

小規模および中規模のモデルの一部は、システムプロンプトなしで使用された場合、または単に共感するように指示された場合、AEM スコアがマイナスになります。これは、モデルの「思考」が高度にシステム化されている一方で、感情的なニーズやコンテキストを識別して対応する能力が低い場合にのみ発生します。これらのスコアは驚くべきものではありませんでした。

ヒュームを共感的にするためにどれだけの努力と資金が投入されたかを考えると、ヒュームの自発的なスコア（0.23）が典型的な男性スコア（0.15）を上回ったのも驚きではない。

小さな Gemini Flash モデル (0.34) が、一般的な男性 (0.15) と女性 (0.29) の AEM スコアを上回ったことに驚きました。興味深いことに、共感するように言われたときや Emy 構成アプローチが使用されたときも、スコアは変化しませんでした。

Claude モデルと Llama 3.1 8B を除き、LLM が共感的になるように特別に指示された場合、パフォーマンスは同じか向上しました。多くは男性の平均スコアを上回り、女性のスコアに近づくか上回りました。最新の OpenAI モデルである ChatGPT o1 は、-0.24 から 0.86 への大幅な上昇を示しました。Llama 3.1 8B は、システム化傾向が EQ よりも増加したため、低下しました。

Claude Haiku を除き、すべてのモデルは、Emy のアプローチを使用して構成すると、人間のスコアを上回ることができます。

追加研究分野

API ベース以外のテスト

2024 年第 1 四半期のベンチマークには、API 経由でテストできなかった AI が含まれていました。リソースの制約により、チャットボットの UI レベルのテストは評価から除外しました。UI を備えたチャットボットの顧客ベースは、エンドユーザーと開発者のように API の顧客ベースとは異なるため、これらには異なるベンチマークセットが必要です。

また、追加のガードレールにより、UI を備えた消費者向けチャットボットは、API 経由でアクセスすると、基礎となるモデルとは少し異なる動作をすることを発見しました。とはいえ、UI レベルでのテストには非常に時間がかかるため、特別なリクエストがない限り、その面でさらにテストする予定はありません。

レイテンシー

人間が AI に共感を抱く傾向は、AI が応答するのにかかる時間によって影響を受けると考えられます。3 秒または 4 秒以上かかる応答は共感の低下として認識されるのではないかと私は考えています。また、応答が数秒未満の場合、人工的に速いように見え、共感の低下として認識される可能性もあります。理想的な遅延は、特定の状況で必要とされる共感の性質そのものによっても影響を受ける可能性があります。

オーディオ、ビデオ、AI、共感

ヒューム氏のビジネス全体は、共感は書き言葉を超えて話し言葉にも及ぶという前提に基づいています。これは入力と出力の両方の次元に当てはまるようです。つまり、ユーザーが AI に話しかけることができない場合、AI が音声応答を生成したとしても、ユーザーは AI を共感性が低いと認識する可能性があります。

音声テキスト変換、テキスト音声変換、音声音声変換の API は複数あり、複数の構成でテストして、認識される共感への影響を評価する必要があります。少なくとも、Hume、OpenAI、Speechify、Google、Play.ht が含まれます。

私は Hume、Speechify、Play.ht で予備テストを行いました。3 つのプラットフォームの音声品質はいずれも非常に高いものでした。Hume のトーンと音量の変更はフレーズレベルに焦点が当てられています。その結果、音声の変更はかなり耳障りになることがあります。ただし、ログの根底にある感情的な意図を確認すると、かなり良好であるように見えます。一方、Speechify は、より滑らかでニュアンスが少ない輪郭を持つ段落レベルの音声の生成を処理できます。

Play.ht では、感情的な韻律を実現するために SSML を使用する必要があります。このコンテキストで、私は AI 支援による SSML 輪郭値の生成を試し、ある程度成功しました。3 つの最良の部分をすべて組み合わせると、結果は非常に驚くべきものになります。ここでは対処すべきニュアンスが多数あり、オーディオが好奇心旺盛に聞こえる必要があると単純に言うだけでは不十分です。遊び心のある好奇心旺盛なサウンドにすべきか、真剣に好奇心旺盛なサウンドにすべきか、それとも気軽に好奇心旺盛なサウンドにすべきか?

AEM の限界

AEM は、AI が共感を示すと認識される実際の能力と相関している場合にのみ重要です。実際の対話とシミュレートされた対話の両方について、さらにテストと評価を行う必要があります。これには 2 つの問題があります。

実際の対話はどこで得られるのでしょうか? 重要なもののほとんどは、HIPPA やその他のプライバシー法によって保護されているか、チャット機能を提供するプラットフォームでのみ使用可能です。
共感をどのように評価するのでしょうか? 「感情理解のための大規模言語モデルの評価」からわかるように、LLM ならどれでも使用できるわけではありません。LLM に投票してもらうのでしょうか? それとも、人間の評価者を集めてマルチ評価システムを使用するのでしょうか?

結論

AI 分野は急速に進化し続けています。テストされた最大の LLM は、デジタルで入手可能な人間の事実、科学、精神、および創造的な素材の大半ですでにトレーニングされています。特定の LLM の性質が、その明らかな共感能力に影響を与えることは明らかです。これがモデルのアルゴリズムの根本的な性質によるものか、トレーニングデータがどのように提示されたかによるものかは不明です。

私は、18 か月以内に、Meta、Google、Apple、または OpenAI から、特別なプロンプトやトレーニングなしで共感できる AI が登場すると予測しています。この AI は、ユーザーのチャット履歴、テキストまたは音声入力、顔の手がかり、時計や指輪からのバイオフィードバックパラメータ、メガネやその他の入力からの現在の現実世界の環境条件、さらにインターネットからの関連する時間ベースのデータから、共感の潜在的なニーズを検出します。

次に、共感的な関わりの必要性や欲求について探り、それに応じて応答します。シアトルは寒くて雨が降っていて、シーホークスが負けたことを知っています。私は妻と一緒に試合を見に行きました。私はファンではありませんが、妻はフットボールの熱狂的なファンです。妻が大丈夫かどうか尋ねるように指示します。

この 18 か月の猶予期間が、共感能力があるにもかかわらず、Emy が商業化されていない理由です。Pi.ai の背後にある会社の倒産と Character.ai の混乱は、共感 AI に専念する独立した取り組みが長期的に独立した成功をもたらす可能性は低いことを示していますが、一部の人々にとっては確かに短期的な経済的利益をもたらしました。

AIと共感については、継続的な研究が必要だと私は信じています。運転手として共感を持って行動できない超知能の存在は、必ず人間を傷つけるでしょう。