Author: Priyanka Neelakrishnan, B.E., M.S., M.B.A. On a mission to make the world better than yesterday!
The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.
This story contains AI-generated text. The author has used AI either for research, to generate outlines, or write the text itself.
AI が広く導入されるには、その使用を管理、保護するための体系的なガードレールが必要です。
近年、世界では人工知能の利用が大幅に増加し、デジタル環境のあらゆる側面に浸透しています。自動処理から高度なアルゴリズムまで、人工知能は徐々に私たちの日常生活やビジネス活動に不可欠な要素になりつつあります。さまざまな業界や分野で人工知能技術の利用が前例のない規模で飛躍的に増加しています。これは社会に深刻な影響を及ぼし、個人の中核的権利に対する危険やリスクももたらしています。
人工知能 (AI) は、さまざまな機械学習、ロジック、知識ベースの技術やアプローチを網羅する幅広い分野であり、通常は人間が行うタスクや人間の認知能力を必要とするタスクを実行できるシステムを作成します。これには、自然言語処理、画像認識、問題解決、意思決定などのタスクが含まれます。欧州連合の AI 法および AI リスク管理に関する OECD レポートによると、AI システムとは、明示的または暗黙的な目的のために、受信した入力から、物理環境または仮想環境に影響を与える予測、コンテンツ、推奨事項、決定などの出力を生成する方法を推測するマシンベースのシステムです。
大きく分けて 2 つの分類があります。
GAN は、ジェネレータとディスクリミネータの 2 つのニューラル ネットワークで構成される機械学習フレームワークです。ジェネレータは、入力されたランダム ノイズをターゲット形式に整形してデータを生成します。ジェネレータだけでは、出力の品質を評価できません。ここでディスクリミネータ モデルが登場します。ディスクリミネータは、実際のデータとジェネレータによって生成された偽のデータを区別することを目的としています。この 2 つは同時にトレーニングされ、ディスクリミネータは実際のデータとジェネレータのデータを区別するようにトレーニングされ、ジェネレータはよりリアルなデータを作成してディスクリミネータを混乱させるようにトレーニングされます。トレーニングが進むにつれて、各モデルはタスクにおいてますます優れた能力を発揮し、ジェネレータはリアルに見えるコンテンツを作成できるようになります。GAN の課題は、トレーニングです。たとえば、GAN はトレーニング中にモデル崩壊を起こすことがあります。この場合、ジェネレータはディスクリミネータを混乱させるには十分ですが、有用になるほどには十分ではない、少数のサンプルを生成することしか学習しません。ここで拡散モデルが登場します。本質的に、拡散モデルは、ノイズの多いフィールド バージョンからトレーニング データを回復するようにトレーニングされます。トレーニング後、拡散は純粋なノイズ入力からまったく新しい画像を生成する場合があります。段階的なノイズ除去プロセスを通じて、画像を繰り返し構築します。
次に、自己回帰モデルは統計に基づいています。自己回帰モデルは、前の要素を条件とするシーケンス内の次の要素の確率をモデル化することによって、データのシーケンスを生成します。次に、次の要素はこの分布からランダムに選択され、「温度」パラメータを使用して結果をより決定論的またはよりランダムになるように微調整することができ、このプロセスが繰り返されます。自己回帰モデルでよく使用されるニューラル ネットワーク コンポーネントには、LSTM とトランスフォーマー (ニューラル ネットワークが非常に大量のテキスト トレーニング データ内のパターンを学習できるようにする) があります。入力されたシーケンスを単に完了するのではなく、自己回帰モデルにアライメント ステージを追加します。ここで、モデルは、人間のフィードバックに基づいて、特定の入力と出力のペアを他のペアよりも優先するようにさらにトレーニングされます。たとえば、LLM のアライメントでは、質問やコマンドに応答する方法をモデルに教えることに成功しています (強化学習)。
データは、生成 AI モデル、特に大規模言語モデル (LLM) の開発において中心的な役割を果たします。これらのモデルは、トレーニングと改良のために膨大な量のデータに依存しています。たとえば、OpenAI の ChatGPT は、デジタル化された書籍や Wikipedia のエントリなど、インターネットから収集された 45 テラバイトを超えるテキスト データで構成される大規模なデータセットでトレーニングされました。ただし、生成 AI ではデータ収集が広範囲に必要となるため、個人の同意なしに個人データが不注意に収集され使用されるなど、重大な懸念が生じる可能性があります。Google AI の研究者も、これらのデータセットは多くの場合大規模でさまざまな場所から取得されるため、公開されているデータから取得されたものであっても、機密性の高い個人情報が含まれている可能性があることを認めています。
データ収集には、大きく分けて 2 つの一般的なソースがあります。
公開データ-ウェブスクレイピングは、データ収集に使用される最も一般的な方法です。公開されているウェブページから大量の情報を抽出します。このデータは、トレーニング目的で利用されるか、販売用に再利用されるか、他の AI 開発者に無料で提供される場合があります。ウェブスクレイピングで取得されたデータには、Facebook、Twitter、LinkedIn、Venmo などのソーシャル メディア プラットフォームやその他の Web サイトでユーザーが共有する個人情報が含まれることがよくあります。個人は、潜在的な雇用主とつながったり、新しい友達を作ったりするなど、さまざまな理由でそのようなプラットフォームに個人情報を投稿することがありますが、通常、自分のデータが生成 AI モデルのトレーニングに使用されることは意図していません。
ユーザーデータ- チャットボットなどの生成 AI アプリケーションでユーザーが共有するデータは、データ主体の認識や同意なしに保存され、トレーニングに使用される可能性があります。たとえば、ヘルスケアのアドバイス、セラピー、金融サービス、その他のサービスを提供するチャットボットとやり取りするユーザーは、機密性の高い個人情報を漏らす可能性があります。このようなチャットボットは、ユーザーデータが「サービスの開発と改善」に使用される可能性があることを記載した利用規約を提供している場合がありますが、批評家は、生成 AI モデルはユーザーから積極的な同意を求めるか、ユーザーデータの収集、使用、保持について明確な開示を行うべきだと主張する可能性があります。
多くの組織は、提供内容を強化するために、自社の製品やサービスに生成 AI モデルを組み込んでいます。このような統合は、場合によっては、消費者の個人データを含むデータのソースとして機能し、これらのモデルのトレーニングや微調整にも役立ちます。
潜在的な脅威には次のようなものがあります:
生成型 AI テクノロジーの影響を強く受ける時代を迎えるにあたり、データと AI を安全に使用しながら法的および倫理的要件を満たしたいと考える企業にとって、人工知能のガバナンスはますます重要な優先事項となっています。2023 年 10 月、米国のバイデン・ハリス政権は、人工知能の「安全、安心、信頼できる」使用を義務付ける大統領令を発令しました。この大統領令は、世界初の包括的な AI 法である EU の AI 法の直後に発令されました。中国、英国、カナダなどの他の国々、さらには米国のいくつかの州でさえ、AI の安全性、セキュリティ、透明性の重要性を強調する法案を提案または制定することで、独自の線引きを行っています。
製品マネージャーや一般的な企業のリーダーは、AI をビジネス プラクティスに組み込む際に、この安全な AI 使用の考え方を採用する必要があります。効果的な AI ガバナンスは、管理と監視を提供し、企業が責任を持って倫理的に、また社内ポリシーと外部規制の両方に準拠して、文書化され、効率的で実証可能な方法で AI サービスを開発および管理できるようにします。これにより、企業は信頼を維持し、説明責任も強化できます。
AI ガバナンスとは、人工知能の使用を統制、管理、監視するフレームワーク、ルール、標準、法的要件、ポリシー、ベスト プラクティスを課すことを指します。これには、法的および倫理的要件を満たすための AI アクティビティの指示、管理、監視が含まれます。倫理面では、企業は顧客の信頼を構築および維持するために、AI モデルの透明性、安全性、セキュリティを高いレベルで確保することに重点を置く必要があります。法的面では、企業は法的要件に準拠し、規制当局の要求を満たす必要があります。そうしないと、多額の罰金やブランドの評判の低下を招くリスクがあります。
McKinsey の調査では、生成 AI が今後年間 2.6 兆ドルから 4.4 兆ドルの価値をもたらす可能性があると推定されています。ただし、この可能性を実現するには、組織が透明性、セキュリティ、信頼性のある方法で AI を実装する必要があります。実際、Gartner は、安全で信頼できる AI を正常に運用する組織では、AI の採用とビジネス目標の達成が 50% 増加する可能性があると示唆しています。
これらには次のものが含まれます。
ガートナーが開発した AI ガバナンス フレームワークの一例として、AI TRiSM (AI 信頼、リスク、セキュリティ管理フレームワーク) が挙げられます。これは、AI の使用におけるリスクの軽減とデータ プライバシー法との整合に重点を置いています。このフレームワークには 4 つの柱があり、1) 説明可能性とモデル監視 - 透明性と信頼性を確保します。2) モデル操作 - ライフサイクル全体にわたって AI モデルを管理するためのプロセスとシステムの開発が含まれます。3) AI アプリケーション セキュリティ - モデルのセキュリティを維持し、サイバー脅威から保護します。4) モデル プライバシー - プライバシー法 (データの目的/ストレージ制限、データの最小化/保護原則) に従ってデータ フローを管理することにより、AI モデルのトレーニングまたはテストに使用されるデータを保護します。全体として、TRiSM は AI モデルの信頼性、信頼性、セキュリティ、プライバシーを強化するアプローチです。
AI システムの可視性の向上 - AI モデルを検出してカタログ化します。ここでの目的は、パブリック クラウド、プライベート環境、サードパーティ アプリで使用されるすべての AI モデルの詳細を識別して記録することにより、企業に AI の使用状況の完全かつ包括的な概要を提供することです。これには、文書化されていない、または承認されていない AI モデルを含む、モデルの目的、トレーニング データ、アーキテクチャ、入力、出力、および相互作用が含まれます。この情報の集中カタログを作成すると、透明性、ガバナンス、および AI の効果的な使用が向上し、より適切な意思決定とリスク管理がサポートされます。これは、AI アプリケーションの全範囲を明らかにし、組織内の運用サイロを解体するために不可欠です。
包括的なリスク評価 - リスクを評価し、AI モデルを分類します。ここでの目的は、開発前および開発段階で AI システムのリスクを評価し、リスク軽減手順を実施することです。これには、モデルの説明、使用目的、制限、倫理的考慮事項など、AI モデルの定義済みリスク評価を提供するモデル カードの活用が含まれます。これらのリスク評価は、毒性、悪意、偏見、著作権の考慮事項、幻覚リスク、さらにはエネルギー消費と推論実行時間の観点から見たモデル効率などの側面を網羅した包括的な詳細を提供します。これらの評価に基づいて、組織は、展開と使用を承認するモデル、ブロックするモデル、および使用前に追加のガードレールが必要なモデルを決定できます。
透明なデータ プラクティス - データを AI フローにマッピングして監視します。データはトレーニング、チューニング、推論のために AI システムに流入し、データは出力として AI システムから流出します。これにより、企業は AI モデルと AI システムに関する完全なコンテキストを明らかにできます。つまり、AI モデルとシステムを、関連するデータ ソースとシステム、データ処理、SaaS アプリケーション、潜在的なリスク、コンプライアンス義務にマッピングします。この包括的なマッピングにより、プライバシー、コンプライアンス、セキュリティ、データ チームは依存関係を特定し、潜在的な障害点を特定し、AI ガバナンスがリアクティブではなくプロアクティブであることを保証できます。
堅牢なセキュリティ制御 - データから AI への制御を実装します。これにより、AI モデルに入力されるデータと AI モデルから生成されるデータのセキュリティと機密性に対する厳格な制御を確立できます。このような制御には、それぞれセキュリティ フレームワークとプライバシー法で義務付けられているデータ セキュリティ制御とプライバシー制御が含まれます。たとえば、データセットから識別可能な値を削除するために、編集または匿名化手法を適用できます。これにより、企業のデータ ポリシーとユーザーの権限に合わせて、AI モデルへのデータの安全な取り込みが保証されます。機密データが LLM モデルに侵入すると、そのセキュリティ保護は非常に困難になります。同様に、企業データがベクター形式に変換されると、セキュリティ保護はさらに困難になります。データの生成と出力側では、AI のやり取りを保護するために、外部からの攻撃、悪意のある内部使用、構成ミスに対する注意が必要です。AI アシスタント、ボット、エージェントとの安全な会話を確保するには、有害なプロンプト、取得、応答をフィルタリングする LLM ファイアウォールを導入する必要があります。これらのファイアウォールは、プロンプト インジェクション攻撃やデータ流出攻撃など、LLM の OWASP Top 10 や NIST AI RMF フレームワークで強調されているさまざまな脆弱性から防御できる必要があります。
規制フレームワークへの徹底的なコンプライアンス - 規制に準拠します。AI システムを使用する企業は、AI 固有の規制と標準、および AI の使用に関連するデータ プライバシー義務に準拠する必要があります。この厳しいコンプライアンス プロセスを効率化するために、企業は AI に合わせた包括的なコンプライアンス自動化を活用できます。このようなシステムは、NIST AI RMF や EU AI 法など、グローバル AI 規制とフレームワークの幅広いカタログを提供します。このシステムは、フレームワーク内で個別の AI プロジェクトの作成を容易にし、ユーザーが各プロジェクトに必要な制御を特定して適用できるようにします。このプロセスには、自動化されたチェックと評価の両方が含まれており、関係者からの入力を必要とするため、コンプライアンスを確保するための総合的なアプローチが提供されます。
AIガバナンスをうまく導入した企業は、
a) 認可されたAIシステムと認可されていないAIシステムの完全な透明性
b) AIリスクの明確な可視性
c) AIとデータのマッピング
d) 強力な自動化AI + データ制御
e) 世界的な AI 規制への準拠。
全体として、AI の安全な使用を確保する必要があります。安全性を優先すると、短期的にはビジネス上の利益が若干低下する可能性がありますが、中長期的には大きなメリットがあります。
責任あるAIガバナンスのための戦略 | HackerNoon