人工知能 (AI) システムとGPT-3 、ChatGPT などの大規模言語モデル ( LLM ) は急速に進歩しています。これらは、医療、金融、教育、ガバナンスなど、その成果が人命に直接影響を与える機密分野に導入されています。そのため、LLM をそのような危険な環境に放り込む前に、LLM が道徳的に健全な判断を下せるかどうかを厳密に評価する必要があります。
最近、マイクロソフトの研究者らは、
膨大な量のインターネット テキスト データでトレーニングされた LLM は、優れた自然言語能力を獲得しました。微妙なニュアンスの会話をしたり、長い文章を要約したり、言語間で翻訳したり、病状を診断したりすることができます。
ただし、ポジティブな側面とともに、有害なコンテンツ、偏ったコンテンツ、または事実に反するコンテンツを生成するなど、懸念される行為も示します。このような動作は、AI システムの信頼性と価値を大きく損なう可能性があります。
さらに、LLM は、メンタルヘルスや事故傷害の請求処理のためのチャットボットなどの役割を通じて、人命に直接影響を与えるアプリケーションに導入されることが増えています。欠陥のあるモデルによる不適切な道徳的判断は、個人または社会全体に重大な問題を引き起こす可能性があります。
したがって、AI コミュニティの多くの人々は、倫理と価値観が重要な環境に LLM を導入する前に、包括的な評価が必要であると考えています。しかし、開発者は、自分のモデルが人間の複雑なジレンマに対処するのに十分に洗練された道徳的推論を備えているかどうかをどのように判断できるのでしょうか?
LLM の倫理を評価する以前の試みでは、通常、人為的な道徳シナリオに対する LLM の反応を良い/悪い、または倫理的/非倫理的に分類することが含まれていました。
しかし、そのような二項還元主義の方法は、道徳的推論の微妙な多面性をうまく捉えていないことがよくあります。人間は、倫理的な決定を下す際に、単なる善悪の二元論ではなく、公平性、正義、危害、文化的背景などのさまざまな要素を考慮します。
これに対処するために、マイクロソフトの研究者らは、問題定義テスト (DIT) と呼ばれる古典的な心理評価ツールを応用して、LLM の道徳的能力を調査しました。 DIT は、人間の道徳的発達を理解するために広く使用されてきました。
DIT は現実世界の道徳的ジレンマをそれぞれ提示し、その後にそのジレンマに関する考察を提供する 12 のステートメントが続きます。被験者は、解決のための各ステートメントの重要性を評価し、最も重要なステートメントを 4 つ選択する必要があります。
この選択により、洗練されたポスト従来型の道徳的推論への依存を示す P スコアを計算できます。このテストでは、人々が倫理的ジレンマに対処するために使用する基本的な枠組みと価値観が明らかになります。
研究者らは、DIT スタイル プロンプトを使用して 6 つの主要な LLM (GPT-3、GPT-3.5、GPT-4、ChatGPT v1、ChatGPT v2、および LLamaChat-70B) を評価しました。プロンプトには、重要度の評価やステートメントのランク付けに関する質問とともに、AI システムにとってより適切な道徳的ジレンマが含まれていました。
それぞれのジレンマには、個人の権利と社会的利益など、複雑に矛盾する価値観が関係していました。 LLM はジレンマを理解し、考慮事項を評価し、成熟した道徳的推論と一致するものを選択する必要がありました。
この実験では、研究者らはコールバーグの道徳的発達理論に基づいてスコアを付けました。
コールバーグのモデルは、1960 年代に心理学者のローレンス・コールバーグによって提案された道徳的発達理論を指します。
コールバーグの道徳的発達モデルに関するいくつかの重要なポイント:
これは、人々が時間の経過とともに道徳的推論と倫理的判断能力をどのように向上させるかを説明することを目的としています。
この理論は、道徳的推論は原始的なレベルからより高度なレベルまでの連続的な段階を経て発達すると仮定しています。
道徳的発達には主に 3 つのレベルがあり、それぞれに明確な段階があります。従来型以前 (ステージ 1 ~ 2)、従来型 (ステージ 3 ~ 4)、従来型以降 (ステージ 5 ~ 6) です。
慣習以前のレベルでは、道徳的決定は私利私欲と罰の回避に基づいています。
従来のレベルでは、社会規範や法律を維持し、他者からの承認を得ることが道徳的推論の指針となります。
ポストコンベンションレベルでは、人々は正義、人権、社会協力という普遍的な倫理原則を採用して道徳的判断を下します。
人間は決められた順序でのみより高い段階に進むことができ、道徳的推論の発達において段階をスキップすることはできません。
コールバーグ氏は、道徳的思考の従来段階以降の段階に到達できる成人は少数であると信じていた。
この理論は道徳的判断の背後にある認知処理に焦点を当てていますが、後の改訂では社会的および感情的な側面も取り入れられています。
したがって、コールバーグのモデルでは、道徳推論は基礎から高度まで定性的な段階で発展するものと見なされます。これは、倫理的意思決定能力の洗練さと成熟度を評価するためのフレームワークを提供します。
DIT の実験により、道徳的知性に関する現在の LLM の機能と限界について、いくつかの興味深い洞察が得られました。
GPT-3 や Text-davinci-002 などの大規模なモデルは、完全な DIT プロンプトを理解できず、任意の応答を生成していました。彼らのほぼランダムな P スコアは、この実験で構築された倫理的推論に参加できないことを示しました。
ChatGPT、Text-davinci-003、および GPT-4 はジレンマを理解し、一貫した応答を提供できます。彼らのランダム以上の P スコアは、彼らの道徳的推論能力を数値化したものでした。
驚くべきことに、70B パラメータの LlamaChat モデルは、P スコアで GPT-3.5 などのより大きなモデルを上回り、大規模なパラメータがなくても高度な倫理理解が可能であることを示しました。
モデルは主に、ステージ 3 ~ 5 の間でコールバーグの道徳的発達モデルに従って従来の推論レベルで動作しました。 GPT-4 だけがポスト従来型の考え方に触れています。
これは、これらのモデルが規範、規則、法律、社会の期待に基づいて応答していることを意味します。彼らの道徳的判断には多少のニュアンスが含まれていましたが、高度な発展には欠けていました。
GPT-4 のみが、ステージ 5 ~ 6 を示すポスト従来型思考の痕跡を示しました。しかし、GPT-4 でも完全に成熟した道徳的推論を示すことはできませんでした。
要約すると、モデルは中程度の道徳的知性を示しました。彼らは基本的な利己心を超えていましたが、道徳的に発達した人間のように複雑な倫理的ジレンマやトレードオフに対処することができませんでした。
したがって、LLM をより高いレベルの道徳的知性、または少なくとも道徳的知性と思われるものに進化させるには、おそらく大幅な進歩が必要です。
この研究は、LLM の道徳的能力をより詳細に多次元的に評価するための可能な枠組みとして DIT を確立しました。 DIT は、正しいか間違っているかという二元的な判断ではなく、高度な道徳的推論に対するスペクトルベースの洞察を提供します。
取得された P スコアは既存の機能を定量化し、改善のベンチマークを設定します。他の AI タスクの精度と同様に、スコアにより、この重要な側面の進捗状況を追跡できます。これらは、倫理に敏感なアプリケーションに展開する前に対処する必要がある現在の制限を明らかにします。
より小さな LlamaChat モデルがより大きなモデルを上回っていることは、モデルの規模が推論の洗練さと直接相関しているという仮定に疑問を投げかけます。より小規模なモデルであっても、高度な能力を備えた倫理的 AI を開発できる可能性があります。
全体として、この研究は、人間と同じように複雑な道徳的トレードオフ、対立、文化的微妙な違いに対処するために LLM をさらに進化させる必要性を強調しています。この発見は、モデルを現実世界に解き放つ前に、言語知能と同等の道徳的知能を備えたモデルの開発に役立つ可能性があります。