paint-brush
その LLM は本当に「オープンソース」なのか? AI ガバナンスにおけるオープンウォッシングについて話し合う必要がある@salkimmich
709 測定値
709 測定値

その LLM は本当に「オープンソース」なのか? AI ガバナンスにおけるオープンウォッシングについて話し合う必要がある

Sal Kimmich13m2024/09/08
Read on Terminal Reader

長すぎる; 読むには

急速に進化する人工知能 (AI) の世界では、オープンソース ソフトウェアとプロプライエタリ ソフトウェアの区別がますます曖昧になっています。この複雑さの増大により、透明性、倫理、AI における「オープン性」の真の意味について重要な疑問が生じています。私たちは、オープンソース AI 定義 (OSAID) とより深い分析的洞察を統合した包括的な評価フレームワークを導入し、より情報に基づいた意思決定を支援します。
featured image - その LLM は本当に「オープンソース」なのか? AI ガバナンスにおけるオープンウォッシングについて話し合う必要がある
Sal Kimmich HackerNoon profile picture
0-item

特定の機能に重みを割り当てて評価の勾配を作成することで、定量的なオープン性の判断を実用的な指標に変換する方法を示した図。

学習内容

このブログでは、AI のオープン性の複雑さについて深く掘り下げ、オープンソースの原則が BloomZ や Llama 2 などの大規模言語モデル (LLM) にどのように適用されるか (または適用されないか) に焦点を当てます。この記事を読み終える頃には、オープンソース ライセンスの歴史的背景、AI における「オープン性」の定義に関する現在の課題、消費者と開発者の両方を誤解させている「オープンウォッシング」現象について理解できるようになります。また、AI モデルについてより情報に基づいた決定を下せるよう、 オープンソース AI 定義 (OSAID)と他のフレームワークからの補完的な洞察を統合した包括的な評価フレームワークも紹介します。最後に、あらゆる「オープンソース」大規模言語モデルの透明性を定量的に測定するための複合的な判断を開発するための実用的なベスト プラクティスを紹介します。


広く受け入れられている定義を補完する代替案を検討することも有益です。これから説明するように、最近の分析を含むいくつかの視点では、オープンソース AI 定義 (OSAID)などのフレームワークは、特にデータの透明性などの問題への対処方法において、追加の次元から恩恵を受けることが示唆されています。モデル オープンネス フレームワークとそのオープン サイエンスの原則は、AI のオープン性を評価するための追加の指針となる可能性のある補完的な視点を提供します。この分野では、規制遵守はまだ初期段階にあります。


なぜこれが重要なのか

AI の世界は複雑で急速に進化しており、オープンソースの原則が限界に達することも少なくありません。AI システムが革新的であるだけでなく、透明性、倫理性、説明責任も確保したい開発者、研究者、消費者にとって、こうしたニュアンスを理解することは不可欠です。AI モデルがオープンソースとして偽って販売される「オープンウォッシング」の増加に伴い、こうした主張を評価するための堅牢なフレームワークを持つことがこれまで以上に重要になっています。この知識を身に付けることで、AI 開発におけるオープン性と透明性の真の価値に沿った情報に基づいた決定を下すことができます。

オープンソースライセンスの歴史的背景

これからどこへ向かうのかを理解するには、これまでの経緯を知ることが不可欠です。オープンソース運動は、1980 年代にフリーソフトウェア財団 (FSF)が GNU 一般公衆利用許諾書 (GPL) を導入したときに、プロプライエタリソフトウェアの支配が強まることに反発して生まれました。このライセンスは画期的なものであり、ユーザーにソフトウェアの使用、変更、共有の自由を保証し、実質的に開発者とユーザーの手に権限を取り戻しました。


1990 年代後半に話が進み、オープン ソース定義 (OSD) に準拠したライセンスを認証することでオープン ソース ソフトウェアを促進および保護するために、オープン ソース イニシアティブ (OSI)が設立されました。OSD は、何を「オープン ソース」と呼んでよいか、何を「オープン ソース」と呼んではいけないかを規定し、この用語が薄められたり誤用されたりしないようにしました。

大規模言語モデル (LLM) の例と「オープン性」の限界

AI の世界では、オープン システムとクローズド システムの境界がさらに曖昧になります。GPT-3 やその後継などの大規模言語モデル (LLM) は、AI の世界では「オープン ソース」という言葉がいかに誤解を招く用語になり得るかを示す代表的な例です。LLM は、人間のようなテキストを生成するために大規模なデータセットでトレーニングされた高度な AI システムです。これらのモデルは、翻訳からクリエイティブ ライティングまで、幅広いタスクを実行できるため、大きな関心と投資を呼び起こしています。ただし、これらのモデルの優れた機能にもかかわらず、「オープン性」の概念は、詳細に検討すると不十分であることがよくあります。


研究論文「オープンソース生成 AI の再考: オープンウォッシングと EU AI 法」では、研究者の Liesenfeld 博士と彼のチームが、AI におけるさまざまなレベルのオープン性の例として、2 つの著名な LLM である BloomZ と Llama 2 を比較しています。この比較は、生成 AI モデルにオープン性マトリックスを適用する方法の実践的なデモンストレーションを示しています。


オープン性の 14 次元における BloomZ と Llama 2 の比較、フレームワークの図示。


BloomZ: 真のオープン性のケーススタディ

BloomZ は、オープンソースの原則を真に受け入れ、AI の透明性とアクセシビリティに高い基準を設定するモデルを表しています。


  • 可用性: BloomZ は、モデルのトレーニング、微調整、実行のためのソース コードを利用できるようにしており、オープン性が非常に高いです。BloomZ のトレーニングに使用される LLM データは、広範囲に文書化されているため、データ ソースとプロセスが透明になっています。基本モデルの重みと命令調整バージョンの両方が公開されているため、より広範なコミュニティによる複製と精査が可能です。
  • ドキュメント: BloomZ プロジェクトは十分に文書化されており、詳細な説明は複数の科学論文とアクティブなGitHub リポジトリで入手できます。データのキュレーションと微調整のプロセスは包括的にカバーされており、モデルのアーキテクチャ、トレーニング データ、責任ある使用に関する洞察が提供されます。AI プロジェクトではほとんど文書化されないカーボン フットプリントの推定など、査読済みの論文がその透明性をさらにサポートしています。
  • アクセスとライセンス: BloomZ は Petals API を通じて配布され、そのソースコードは OSI 承認のライセンスであるApache 2.0 ライセンスの下でリリースされています。モデルの重みは Responsible AI License (RAIL) の下でカバーされており、有害な使用を防ぐための制限を課し、倫理的責任の層を追加します。

ラマ2 :オープンウォッシングの落とし穴

対照的に、Llama 2 は、オープン性の原則を完全に満たさずにオープンソースのラベルを適用する「オープンウォッシング」の概念を例示しています。


  • 可用性: 対照的に、Llama 2 はソースコードを公開していません。モデルを実行するためのスクリプトのみが共有され、LLM データは漠然と説明されており、企業のプレプリントで提供される詳細は限られています。基本モデルの重みへのアクセスは制限されており、同意書が必要であり、命令の調整に使用されるデータは非公開のままであるため、透明性がさらに制限されています。

  • ドキュメント: Llama 2 のドキュメントは最小限で、ソースコード自体は公開されていません。アーキテクチャは詳細に説明されておらず、企業の Web サイトや 1 つのプレプリントに散在しています。BloomZ とは異なり、Llama にはトレーニング データセット、命令の調整、および微調整プロセスに関する包括的なドキュメントがありません。

  • アクセスとライセンス: Llama 2 はプライバシーを無視したサインアップ フォームを通じて利用可能で、ライセンスは Meta 独自のコミュニティ ライセンスに基づいて処理されます。このライセンスは BloomZ の RAIL よりも厳格ではなく、生成されたコンテンツの表示方法の基準が低いため、誤解を招く可能性のあるアプリケーションの余地が残されています。


BloomZ と Llama 2 を比較すると、オープン性に対するアプローチの明確な違いが浮き彫りになります。BloomZ は、コード、データ、ドキュメントの透明性を備え、オープン ソースの原則を真に受け入れたモデルの代表的な例です。対照的に、Llama 2 は「オープン ウォッシング」の典型です。つまり、モデルはオープン ソースとしてラベル付けされていますが、真のオープン性のほとんどの側面が欠けており、モデルの重みのみが制限された条件でアクセス可能です。この比較は、AI のオープン性についてより微妙な理解が必要であること、および表面的なオープン性の主張に頼るのではなく、包括的な一連の基準に基づいてモデルを評価することの重要性を強調しています。

オープンウォッシングの課題

「オープンウォッシング」とは、実際にはオープンではないものにオープンソースのラベルを貼る行為です。AIの世界ではオープンウォッシングが横行しており、企業は自社のAIシステムの一部を公開しながら、最も重要なコンポーネントを厳重に管理しています。

この研究論文では、AI におけるオープンウォッシングの汚い詳細を掘り下げ、いくつかの重要な課題を取り上げています。


複合的なオープン性: AI におけるオープン性は、万能の概念ではありません。これは多くのピースからなるパズルであり、各ピースがシステム全体の透明性に貢献します。しかし、多くの場合、企業は一部のピースのみを公開し、オープン性について誤解を招くような認識を招いています。この研究では、グラデーションオープン性の概念を紹介し、AI におけるオープン性はバイナリ状態ではなくスペクトルとして捉えるべきであることを強調しています。AI システムのさまざまなコンポーネント (ソースコード、データ、モデル) は、さまざまな程度にオープンである可能性があり、各コンポーネントを個別に評価することが重要です。このグラデーションを理解することで、AI システムの真のオープン性をより適切に評価し、部分的な透明性に惑わされることを回避できます。


選択的なオープン性:一部の AI モデルは、モデルの重みなど、なんとかやり過ごすために必要な程度のオープン性でリリースされていますが、データやトレーニング プロセスなどの重要なコンポーネントは独自のままです。この選択的なオープン性は、透明性に対する中途半端な試みであり、メリットよりもデメリットの方が大きいです。部分的なアクセスのみを提供することで、企業は、意味のあるコラボレーションと理解に必要な完全な透明性を実際に提供することなく、オープン性を主張することができます。


規制の抜け穴:善意に基づく規制枠組みである EU AI 法は、オープン ライセンスでリリースされた AI モデルが詳細なドキュメント要件を回避できるようにすることで、意図せずオープンウォッシングを助長する可能性があります。この抜け穴により、実質的な透明性がほとんどまたはまったくない、名ばかりの「オープン」な AI システムが氾濫する可能性があります。このような規制の背後にある意図はオープン性を促進することですが、慎重な実装と監視がなければ、実質のないオープン性の幻想を作り出すために悪用される可能性があります。


Julia Ferraioli 氏もブログ記事でオープンウォッシングの問題に触れ、「問題の核心は、『オープンソース』などの用語が、真の透明性やコラボレーションよりもマーケティングに関心のある大企業の計画に合うように拡大解釈され、再定義されていることだ」と指摘しています。この洞察は、こうした誤解を招く主張をふるいにかけるための堅牢な評価フレームワークの必要性を裏付けています。


研究の洞察: オープンソース AI の現実


最近の議論で紹介されたモデルオープンネスフレームワークは、オープンサイエンスに沿った透明性へのアプローチを提供することで、これらの洞察の一部を補完します。 オープンソースAI定義(OSAID)は強固な基盤を提供しますが、一部の研究者を含むこの分野の多くの人々は、特にデータの透明性に関しては十分ではないと考えています。それに比べて、モデルオープンネスフレームワークはより厳格なベンチマークを設定し、コードのオープン性だけでなく、オープンサイエンスの価値に沿ったデータセット、方法論、トレーニングプロセスの可用性も重視しています。


グラデーションオープンで拡大

OSAID を基に、段階的オープンネスの概念が評価プロセスに微妙なニュアンスを加えます。AI システムの各コンポーネント (ソース コード、データ、モデル) を個別に評価することで、透明性とオープンネスの真のレベルをよりよく理解できます。



この論文では、研究から得られた重要な洞察が提供されています。


  • ライセンス調整の課題:従来のオープンソース ライセンスはソフトウェア向けに設計されたものであり、AI の複雑で多面的な性質を考慮して設計されたものではありません。この論文では、AI がもたらす固有の課題に対処するには、新しいライセンス戦略が必要であると主張しています。これらのライセンスでは、ソース コードだけでなく、データ、モデル、パラメーターもオープンソースの原則の対象となるようにする必要があります。ライセンスに対するこの総合的なアプローチは、AI 時代のオープンソース運動の完全性を維持するために不可欠です。


  • 倫理的考慮:この論文では、技術的なオープン性だけでなく、AI の開発と展開における倫理的考慮の重要性も強調しています。AI システムにおける公平性、説明責任、透明性の確保は、技術的な課題であるだけでなく、道徳的義務でもあると指摘しています。責任のない透明性は重大な損害につながる可能性があるため、AI 開発の倫理的側面は、オープン性に関するあらゆる議論に組み込む必要があります。


  • 実践的なアプローチ:研究者らは、複合ライセンス下でもカテゴリの信頼性を確立するための合理的な方法をいくつか概説しています。オープンソース AI 定義 (OSAID) をこれらのより深い洞察と統合することで、AI システムを評価するためのより堅牢なフレームワークを構築できます。このアプローチにより、AI モデルをより繊細かつ包括的に評価できるようになり、AI モデルがオープン性の技術的基準と倫理的基準の両方を満たすことが保証されます。


LLM のバージョン管理の問題: オープン性の見落とされがちな側面

AI のオープン性におけるより微妙な課題の 1 つは、LLM のバージョン管理の問題です。バージョン更新が一般的に十分に文書化され透明性がある従来のソフトウェア パッケージとは異なり、LLM の更新は不透明で、何が変更されたのかユーザーにはわかりません。この透明性の欠如は、変更された内容を知らずにオペレーティング システムの更新をインストールすることに似ていますが、LLM の場合、リスクはさらに高くなります。


OS の比較:コンピューターにオペレーティング システムをインストールし、定期的に更新を受け取ることを想像してください。通常は、修正、改善、または追加された内容を詳細に説明した変更ログが表示されることを期待します。この透明性は、ユーザーがシステムの状態を理解するために不可欠です。ここで、そのような透明性がないまま継続的に更新される LLM について考えてみましょう。ユーザーは、その変更を明確に理解せずに、微妙または大幅に変更されたモデルを操作している場合があります。この透明性の欠如は、モデルが予期しない動作をする可能性があるため、パフォーマンスの低下から倫理的な懸念まで、さまざまな問題につながる可能性があります。この比較では、更新について透明性のない AI モデルの使用に関連するリスクを強調し、明確でアクセス可能なバージョン情報の必要性を強調しています。


不透明なアップデートのリスク:透明性がなければ、ユーザーは使用している AI システムを完全に信頼することはできません。変更内容を知らずに OS アップデートをインストールしないのと同じように、不透明なアップデートが行われる LLM に依存するのは危険です。これは、実生活に影響を与える意思決定プロセスに AI が使用される、リスクの高い環境では特に懸念されます。LLM アップデートによって新たなバイアスが導入されたり、重要な機能が削除されたりすると、深刻な結果を招く可能性があります。透明性の欠如は、ユーザーの信頼を損なうだけでなく、重大な倫理的および運用上のリスクも生じます。

包括的な評価フレームワークの確立:OSIAIDの統合

これらの課題を乗り越えるために、私たちはオープンソース AI 定義 (OSIAID) の強みと最近の研究からのより深い洞察を組み合わせた包括的な評価フレームワークを導入します。このフレームワークは、AI システムのオープン性を評価するためのより堅牢な方法を提供することを目的としています。


基盤としての OSIAID:オープンソース AI 定義は、オープンソース AI システムを構成する要素を理解するための強固な基盤を提供します。透明性、アクセシビリティ、倫理的使用に関する明確な基準を定め、AI モデルが最低限のオープン性基準を満たすことを保証します。OSIAID に従うことで、開発者やユーザーは AI モデルがオープン性と透明性の基本基準を満たしていることを確信できます。


段階的オープンネスによる拡張: OSIAID を基盤として、段階的オープンネスの概念が評価プロセスに微妙なニュアンスを加えます。AI システムの各コンポーネント (ソース コード、データ、モデル) を個別に評価することで、透明性とオープンネスの真のレベルをより深く理解できます。これらは、組織のリスク許容度とフレームワークの指標となる場合もあれば、組織間で標準化されている場合もあります。このアプローチにより、AI モデルをより詳細かつ正確に評価し、オープンネスが強い領域と改善が必要な領域を特定できます。


倫理的および法的影響への対応:このフレームワークには倫理的および法的考慮事項も組み込まれており、AI システムが技術的にオープンであるだけでなく、より広範な社会的価値観や法的要件にも適合していることを保証します。これらの考慮事項を統合することにより、このフレームワークは、オープン性が技術的な透明性だけでなく、AI 開発に不可欠な倫理的および法的基準を満たすことも保証します。


Julia Ferraioli 氏は、明確な定義とオープンソースの原則への取り組みの必要性を強調していますが、このアプローチはこれに当てはまります。彼女は、 「オープンソース コミュニティは、その価値観を堅持し、逸脱があれば厳しい監視と透明性の要求に応えなければなりません」と書いています。これらのプラクティスは、そのニーズを満たすように設計されており、AI システムを評価するための堅牢で包括的なフレームワークを提供します。

規制の見通しを念頭に置く

AI 規制の状況は進化し続けているため、規制の動向について常に情報を入手し、関与することが重要です。EU AI 法や同様の枠組みは、AI のオープン性と透明性の将来を形作る上で重要な役割を果たします。これらの議論を理解し、参加することで、規制の枠組みが AI の透明性と説明責任を効果的に促進することに貢献できます。

  • 複数の側面でオープン性を評価:フレームワークを使用して、ソース コード、データ、モデルの重み、ドキュメントなど、オープン性のさまざまな側面で AI システムを評価します。包括的な評価により、オープン性の表面的な主張に惑わされず、使用する AI モデルについて十分な情報に基づいた決定を下すことができます。
  • オープンウォッシングに注意してください:オープンソースであると主張しながら、部分的な透明性しか提供していない AI モデルには注意してください。特定のコンポーネントのみが利用可能になっている、選択的なオープン性の兆候を探してください。これらの戦術を理解することで、オープンソースの原則に真に準拠していないモデルに騙されることを回避できます。
  • 包括的なドキュメントを要求する:トレーニング データ、微調整プロセス、倫理的考慮事項に関する情報を含む、AI システムの詳細なドキュメントを要求します。この透明性は、モデルの機能と制限を理解するために不可欠です。包括的なドキュメントにより、AI モデルをより適切に評価および使用でき、使用しているツールについて十分な情報を得ることができます。
  • AI 固有のライセンスのサポート:コードだけでなく、データ、モデル、パラメータもカバーする AI 固有のライセンスの開発と採用を推進します。これにより、企業が部分的なオープン性の陰に隠れることを防ぐことができます。AI 固有のライセンスは、AI 開発の固有の課題に対処し、モデルのすべての側面がオープンで透明であることを保証します。
  • 規制フレームワークへの参加: EU AI 法などの規制の動向について最新情報を入手し、これらのフレームワークが AI の透明性と説明責任を効果的に促進するように議論に積極的に参加してください。規制フレームワークに参加することで、AI の未来を形作るポリシーの開発にあなたの声が反映されるようになります。

結論: 複雑な世界における AI のオープン性の確保

AI の世界は複雑で、混乱しており、オープンソース運動が本来対処するように設計されていない課題に満ちています。しかし、だからといって透明性、コラボレーション、オープン性の理想を諦める必要はありません。むしろ、適応し、進化し、オープンソース AI が定義に適合するために必要な 4 つの自由を依然として実現できるようにする必要があります。


この新しい世界を進むには、オープンソース コミュニティ、規制機関、AI 開発者間の連携が重要になります。オープンウォッシングの課題に対処し、ライセンスへのアプローチを再考し、堅牢な規制フレームワークを採用することで、革新的であるだけでなく、倫理的で説明責任のある AI エコシステムを構築できます。


AI は今後も存在し続けるでしょう。そして、AI が社会全体の利益となるようにするのは私たちの責任です。最後に、この重要な研究の研究者から直接聞いた重要な考えを皆さんにお伝えします。


「公的資金で運営されている研究者がオープンウォッシングを告発する先頭に立っているのは、おそらく偶然ではないでしょう。企業の利益に縛られることなく、AIを大々的に宣伝するインセンティブもなく、私たちは一歩下がって大手テクノロジー企業が何をしているのか明らかにし、彼らに責任を負わせる建設的な方法を考え出すことができます。」とリーゼンフェルド博士は述べています。


この研究チームは、EU AI法に関連するいくつかの取り組みに積極的に関与しており、特にAI文書の「十分に詳細な要約」が実際に何を意味するかに焦点を当てています。この作業は、 Mozilla FoundationおよびOpen Future Foundationと共同で行われています。チームは技術評価に関する学術研究も継続しており、今年後半にはオープン性評価の公共リソースとして機能する新しいWebサイトを公開し、これらのツールをより幅広い人々が利用できるようにする予定です。この取り組みは、AIの透明性について企業に説明責任を負わせるための、より明確な基準とフレームワークを提供することを目指しています。


オープンソース AI 定義 (OSAID) は、引き続き公開レビューとフィードバックを受け付けています。オープンソース AI の未来を形作る活動に参加したい場合は、現在のドラフトに関するコメントをこちらから送信できます。定義の最終版は、2024 年に開催されるAll Things Open (ATO)カンファレンスで発表される予定です。コミュニティはオープン AI 開発にとって重要なこのフレームワークを改良し続けているので、今後の更新にご注目ください。


結局のところ、これらの LLM を使用して計算されたリスクを取る場合は、そのリスクを測定する必要があります。この記事で、その方法をいくつか紹介できたと思います。また、定量的な指標や、上記で提示したソリューションの改善点、またはこのトピックに関してここで取り上げられなかった一般的な質問がある場合は、ぜひ私に連絡してください。