Got Tech, Data, AI and Media, and he's not afraid to use them.
The best podcasts on the Internet archived and shared on HackerNoon.
Between Two Computer Monitors: This story includes an interview between the writer and guest/interviewee.
The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.
組織は AI 導入において重大な課題に直面しています。それは、ドメイン固有の知識を活用して AI を信頼できる結果をもたらす方法で利用する方法です。ナレッジ グラフは、確率的な出力を現実世界のビジネス加速に変換する AI に欠けている「真実のレイヤー」を提供します。
• 🚀 AIの導入は加速しているが、ほとんどの実装では期待されるビジネス価値を実現できていない
• 🔍 ナレッジグラフは、信頼性の高いAIシステムに不可欠な「真実のレイヤー」を提供します
• 🔄 Pragmatic AIはLLMの創造力とナレッジグラフの検証機能を組み合わせます
「コンテキストは、ほとんどすべてのものに意味を与えます。したがって、その意味では、すべてのグラフは、情報の相互接続性とコンテキストの性質を認識する最初のステップをすでに踏んでいるため、より多くの知識や意味をもたらす固有の可能性を秘めています。」
私たちは AI と大規模言語モデル (LLM) が支配する世界に生きていますが、それらから質の高い結果を得るにはコンテキストと意味が不可欠であることがわかりました。ナレッジ グラフは、AI の潜在能力を解き放つためのコンテキストと意味を提供する鍵を握っている可能性があり、これを裏付ける証拠は増え続けています。
最新のGartner 人工知能ハイプ サイクルの発表に際し、Gartner の AI 研究担当副社長である Svetlana Sicular 氏は、AI への投資が生成型 AI に重点を置き、新たな高水準に達したと述べました。しかし、ほとんどの場合、これは期待されたビジネス価値をまだもたらしていません。
ナレッジ グラフは、リーダーが戦略の一環として検討すべき新興テクノロジーの Gartner リストにある重要なイネーブラー テクノロジーの中核をなしています。Gartner は、ナレッジグラフが GenAI モデルの構築と進化に不可欠であると推奨しています。Amazon やSamsungなどの組織はナレッジ グラフを使用しており、 市場は 2030 年までに 36.6% の CAGR で 69.3 億ドルに成長すると予想されています。
ガートナーは、この技術もビジョンも新しいものではないため、ここ数年、今日の AI におけるナレッジ グラフの役割と、それが組織に及ぼす下流の影響を主張してきました。 ナレッジ グラフ技術は数十年前から存在しており、 Tony Sealeのような人々は、AI の真実のレイヤーとしてその可能性を早くから認識していました。
「ナレッジ グラフ ガイ」としても知られるシール氏は、同名のコンサルティング会社の創設者です。上記の引用は、ナレッジ グラフの基本原則から、安全で検証可能な AI のアプリケーション パターン、実際の経験、トレンド、予測、今後の方向性まで、あらゆることを網羅した広範な会話から引用したものです。
🧠ナレッジグラフと AI コンテキスト
• 多額のAI投資にもかかわらず、ほとんどの組織は期待されるビジネス価値をまだ提供できていない
• コンテキストと意味は、質の高いAI結果に不可欠である
• ナレッジグラフはAIシステムにとって重要なコンテキストレイヤーを提供します
• ナレッジグラフは競争力のあるGenAI戦略の重要な推進力となる
Seale 氏は、Tier 1 金融機関でデータに携わった数十年の経験があります。約 10 年前、彼は大手投資銀行の「また別のETLプロジェクト」に携わり、データをデータ ウェアハウスに取り込み、データ パイプラインを実装していました。これは、組織のレポート作成とコンプライアンスのニーズに応える典型的なアプローチです。問題は、拡張性がなく、コンテキストや意味を追加できないことです。
その後、Seale 氏はTim Berners Lee 氏の 2010 年の TED トーク「Linked Data」に出会い、すべてが変わりました。2010 年当時、Google は Knowledge Graphs に取り組み始めたばかりで、この用語はまだあまり普及していませんでした。しかし、Linked Data という名称で、この技術は存在していました。TBL 氏の TED トークは、Seale 氏が Linked Data の 2 つの主要原則を理解し、ETL の代替としてこれを実験し始めるのに十分でした。
リンク データの基本的な考え方は、ワールド ワイド ウェブの一般的なアーキテクチャを、構造化されたデータを世界規模で共有するタスクに適用することです。つまり、データに HTTP 識別子を使用して検索できるようにし、標準を使用してその意味 (セマンティクス) に関する情報を提供するということです。
Seale 氏が理解していたのは、このアプローチの分散性が Web で機能するのであれば、どの組織でも機能する可能性があるということでした。ETL プロジェクトやデータ ウェアハウスの事実上のアプローチである、統合と制御の中央ポイントを 1 つ持つのではなく、ナレッジ グラフは分散化と標準化を通じて拡張を可能にします。
これらは、Web を機能させる原理と同じです。Web の発明者が、Web を次のレベルに進めて、ドキュメントの Web からデータの Web に移行したいと考えたのも不思議ではありません。ただし、このアプローチでは、データへのアクセスだけでなく、セマンティクスも追加されます。データ ポイントとそれらの間のリンクには、特定の意味とタイプを関連付けることができます。
ウェブ規模でセマンティクスが実際に機能している最良の例はschema.orgです。schema.org は、すべてのウェブサイトの 30%、Google の最初のページの 72.6% で使用されている標準語彙を定義する共同作業です。schema.org は、標準を使用してセマンティクスを定義するだけでなく、分散化によって注釈と統合をスケーラブルにします。
🌐リンクトデータ基盤
• リンクトデータは、Webアーキテクチャの原則を構造化データ共有に適用します
• HTTP識別子を使用してデータを体系的に検索できる
• 標準規格を用いて意味(セマンティクス)に関する情報を提供する
• 分散化により組織の規模拡大が可能
• Schema.orgはウェブスケールでセマンティック標準の例です
Schema.org は、世界中の Google がナレッジ グラフを構築し、Web をより理解できるようにするものです。これは、Seale が当時勤務していた投資銀行で、失敗するだろうと予想しながらも、秘密プロジェクトとして最初に試み始めたアプローチと同じです。しかし、失敗しませんでした。
最初の成功に勇気づけられた Seale 氏は、ナレッジ グラフの熱心な支持者となり、いくつかの関連プロジェクトを立ち上げました。彼は情熱を追求するために組織を異動し、最初の GPT 大規模言語モデルがリリースされたときには、ナレッジ グラフの構築に必要なセマンティクスと注釈をブートストラップする方法としてグラフ ニューラル ネットワークを検討していました。
シール氏は LLM の実験を始め、すぐに 2 つのことを確信しました。1 つ目は、LLM が大きな影響を与えるということ。2 つ目は、LLM がナレッジ グラフに最適だということです。彼は LinkedIn で自分のアイデアを共有し始め、それが急速に広まりました。最終的に彼は自分のコンサルティング会社を設立し、現在、多くのクライアントとともにこれを実装する作業に取り組んでいます。
「すべての組織は、より確率的な世界へと移行しているという現実を受け入れなければなりません。ですから、誰もが AI を使い始めなければ、おそらく廃業することになるでしょう。私たちは、物事が確率的になり、多くの意思決定に AI が組み込まれる新しい世界へと移行しています。
気に入らないかもしれないし、意見があるかもしれないが、それは問題ではない。それは自然の力で起きていることなので、慣れるしかない。そこで本当に問題になるのは、それをどう安全に行うかということだ。私の意見では、それは外部の検証を通じて得られる」とシール氏は語った。
これが、彼が提唱するアプローチの核心です。ワーキング メモリ グラフやニューラル シンボリック ループなどの派手な名前のパターンや、DeepSeek から Cyc プロジェクトまでさまざまな例が含まれています。しかし、これらについて深く掘り下げる前に、少し立ち止まって基本原理を理解しておくことは価値があります。
🤖 AIとナレッジグラフの統合
• LLMとナレッジグラフは補完的である
• 私たちはAIが意思決定に組み込まれる確率的な世界に向かっています
• ナレッジグラフによる外部検証により、より安全なAIが実現
• 組織はこの変化に適応する必要がある
では、グラフは他のデータ構造と何が違うのでしょうか。また、ナレッジ グラフは他のグラフと何が違うのでしょうか。これには、実装レベルまたは第一原理レベルでアプローチできます。
いずれにせよ、スプレッドシートとマインドマップ、リレーショナル データベースの行と列とグラフ データベースのノードとエッジ、集合論とグラフ理論のいずれを話している場合でも、グラフを際立たせる 1 つの要素があります。それは、接続が第一級の要素であることです。ただし、 すべてのグラフがナレッジ グラフとして適格であるわけではありません。
グラフ内のノードとエッジは、どちらも異なるタイプにすることができます。単純なグラフには、製品を表すノードと、製品間の一般的な関係を表すエッジを含めることができます。二部グラフには、製品と顧客を表す 2 つの異なるタイプのノードと、どの顧客がどの製品を購入したかを表すエッジを含めることができます。
異種グラフには、さまざまな種類のノードとエッジを含めることができます。たとえば、製品と顧客を表すノード、どの顧客がどの製品を購入したか、どの製品がどの顧客によってレビューされたかを表すエッジなどです。
グラフには、可能な限り単純なレベルでも有用性があります。パス検索や中心性などのグラフ アルゴリズムは、アプリケーションや分析に非常に役立ち、異種グラフを必要としません。
URIを識別子として使用し、共通の語彙と合意されたスキーマを持つことがナレッジグラフの特徴です。
「実は、これらのノードのいくつかは異なるものであり、それらの間のエッジは、何かを意味する特別な異なるタイプのエッジであると言い始めると、複雑さが増します。機械学習アルゴリズムを含む、実行できるアルゴリズムの性質が変わります。これをナレッジ グラフの入門レベルと呼べると思います」とシール氏は指摘しました。
「エントリーレベル」という部分に注目してください。 ここには、2000 年代初頭のセマンティック ウェブにまで遡る、長く複雑な歴史があります。リンク データの原則は、これらのアイデア、標準、技術スタックに基づいて構築されました。「セマンティック ウェブ」は廃れ、「ナレッジ グラフ」が普及しました。
セマンティック ウェブは、おそらく時代を先取りしていました。実装の取り組みの多くは誤った方向に進み、その支持者も必ずしも実用的ではありませんでした。しかし、Seale 氏が指摘したように、ニューラル ネットワークも長い間失敗作とみなされていました。URI を識別子として使用し、共通の語彙と合意されたスキーマを持つことは、ナレッジ グラフの特徴であり、ナレッジ グラフがもたらす価値です。
📊グラフの基礎
• グラフは接続を第一級のものとして扱う点で他のデータ構造と異なります
• すべてのグラフがナレッジグラフとして適格であるわけではない
• ナレッジグラフはノードとエッジに意味を追加します
• 識別子としてのURIと共有語彙はナレッジグラフの特徴を定義する
ナレッジ グラフがもたらす構造とセマンティクスにより、他のデータ タイプや他のグラフでは不可能なことが可能になります。Seale 氏は、すべての組織が schema.org の独自のバージョンに取り組み、それを使用してデータに注釈を付け、AI を強化するナレッジ グラフを構築すべきだと考えています。
Seale 氏は、検証アプローチを説明するためにDeepSeek を例に挙げました。他の人たちと同様、Seale 氏も DeepSeek に夢中になり、彼らが何をしたのか理解しようとしていました。巧妙なアルゴリズムや最適化はさておき、DeepSeek の成功の核心は、強化学習に検証可能なデータ、つまり数学とコードを使用したという事実です。
「彼らは、誰もがやっているように、ウェブデータをすべて取得しました。しかし、数学とコーディングに関連する部分だけを抽出しました。これで、外部検証ツールを作成できます。
数式やコードを見て、最後に答えを見て、その答えが本当に正しいかどうかを確認できます。次に、それを LLM に入力して、LLM にその作業を実行させ、外部の形式検証ツールと照合します。これは、確率モデルに品質管理を追加するものです」と Seale 氏は説明します。
連続的および離散的な知識表現アプローチにはそれぞれ異なる利点と限界がある
シール氏はその後、 連続世界と離散世界と呼ばれるものについて詳しく説明しました。連続世界では、すべてが確率的であり、すべてが曖昧であり、そこにこれらの生成 AI モデルが存在します。1 つのものが別のものと混ざり合うと、幻覚が発生します。しかし、シール氏によると、その裏側には、創造性のようなものが少しあるということです。
昔ながらの AI の世界には、 Cyc プロジェクトという伝説があります。Cyc は、世界に関する一般的な知識を形式的にエンコードすることを目指した、非常に野心的な AI プロジェクトです。Seale 氏は Cyc を非常に尊敬しています。しかし、Cyc は成功しなかったし、成功することもできなかったのに対し、生成型 AI モデルは独自の方法で成功していると、Seale 氏は指摘しています。ただし、生成型 AI モデルには独自の欠点もあります。
生成 AI モデルは信頼できないため、金融、法律、医療などの分野での企業導入には不適切です。数学やコードなどの分野では、結果を形式的に検証できます。他の分野でもそれを実行する方法があったらどうでしょうか。Seale 氏は、それは可能であり、その鍵となるのはナレッジ グラフとオントロジーだと考えています。
🌓連続世界と離散世界
• 連続的な世界:確率的、曖昧、創造的だが幻覚を起こしやすい(LLM)
• 離散世界: 論理的、形式的、検証可能だが制限がある (従来の AI)
• 数学やコードの場合、結果は正式に検証できる
• ナレッジグラフとオントロジーは他のドメインの検証にも役立つ
schema.org と、スキーマの一般的な概念について説明しました。スキーマは通常、リレーショナル データベースに関連付けられており、データの構造と編成を定義します。グラフにもスキーマを含めることができます。ナレッジ グラフのスキーマはオントロジーと呼ばれますが、 「スキーマ」という言葉はオントロジーを正しく表現していません。
オントロジーは、継承階層や論理公理などの構成要素のモデリングを可能にすることで、スキーマを超えています。データの構造と編成だけでなく、ビジネス ルールやドメイン知識なども取り込むことができます。
「ゲームの目的は、できる限りビジネスの意味論に近づくことです。特定の組織内でビジネスマンが使用している言葉を取り上げ、それを正式な概念に変換して、それが何であるかを具体的に理解し、次に特定の種類のエッジで相互に関連する方法で概念を結び付けます」とシール氏は説明しました。
ナレッジグラフとオントロジーへの関心が高まっている
オントロジーの構築は簡単ではありません。オントロジーの構築には、ドメイン知識へのアクセスが必要ですが、ドメイン知識は一般に分散しており、部分的に文書化および理解されており、専門家の間でも議論されています。また、オントロジー モデリングの専門知識と適切なツールも必要です。
これが、オントロジーモデリングが何十年も前から存在しているにもかかわらず、主流として採用されなかった理由です。しかし、Seale 氏は状況は変わりつつあり、それを裏付ける状況証拠があるかもしれないと考えています。
Google トレンドでは、「ナレッジグラフ」は過去 5 年間で 3.450% 増加しています。Year of the Graph の専用リポジトリでは、2022 年以降のオントロジーへの参照は、量とソースの種類の両面で 2 倍以上に増加しています。さらに、Seale 自身の成功物語は、ナレッジグラフのバイラル性の代表例になりつつあります。
📚オントロジーの重要性の高まり
• オントロジーは、ビジネス用語から正式な概念を作成することでスキーマを超えます
• 目標: ビジネスセマンティクスと関係性を正確に把握する
• ドメイン知識とオントロジーモデリングの専門知識が必要
• Googleトレンドによると、「ナレッジグラフ」は5年間で3,450%成長した
ナレッジ グラフとオントロジーは、LLM と双方向の関係を持つことができます。LLM は、オントロジーの開発とナレッジ グラフの作成に役立ちます。Seale 氏は、この目的で LLM を使用した経験が良好であると報告しましたが、ここでの成果は人によって異なる可能性があります。いずれにせよ、このようなツールは専門家をサポートすることを目的としており、タスクを完全に自動化するものではありません。
しかし、本当に興味深いのは、その逆です。オントロジーとナレッジ グラフが、LLM の検証者、つまり本質的には真実のレイヤーとして機能します。Seale はこれをLLM のワーキング メモリ グラフ パターンと呼んでいます。
ワーキング メモリ グラフでは、オントロジーがドメイン知識を抽出し、ナレッジ グラフは組織固有の (そしてプライベートな) データベースとして機能します。LLM は仲介者として機能し、探索と創造性の部分を追加し、構造化されていない知識へのアクセスも許可します。これは、LLM で抽出された一般的な知識、またはRAGを介したドメイン固有の知識である可能性があります。
ニューラル・シンボリック・ループ・パターンでは、LLMとナレッジグラフが互いに補完し合う。
ワーキング メモリ グラフは、Seale がニューラル シンボリック ループと呼ぶ、より大きなパターンの一部です。このパターンでは、ワーキング メモリ グラフは検証が必要なドメインの検証者として機能します。数学やコードで可能なことをあらゆるドメインで可能にし、LLM によって生成された結果の正確性を検証するという考え方です。
明らかに、数学やコード以外の領域でそれを実現するのははるかに困難です。オントロジーとナレッジ グラフの構築に必要な労力と専門知識は依然として相当なものであり、結果はそれほど明確ではない可能性があります。しかし、それは可能であり、Seale 氏はそれが AI の真実のレイヤーへの最良の方法であると確信しています。
🔄ニューラルシンボリックループアプローチ
• 組織固有のドメイン知識から始める
• この知識を形式化するためのオントロジーを開発する
• 組織のプライベートデータベースとしてナレッジグラフを構築する
• LLMを探求と創造性の媒介として活用する
• ワーキングメモリグラフを検証レイヤーとして適用する
• 検証と改善の継続的なループを作成する
「AI はロケットのように急速に進歩しています。それを止めることは誰にもできません。いずれにせよ、それは起きるのです。ですから、どんな組織でも、この汎用的な知能を導入できる状況になるでしょう。現時点では賢いですが、超賢いとは言えないかもしれません。しかし、今後 5 年から 10 年でそうなるでしょう。」
皆さんに与えられた時間は短いです。皆さんがすべきことは、AI を組織のコンテキストに取り入れ、AI 氷山の一角であるデータに集中することです。つまり、現在手元にあるモデルの力を活用して、そこに存在するデータに再び焦点を当てる必要があります。
データを整理して統合し、外部検証を効果的に行える状態にする必要があります。どの情報が 0.001 ドルの価値があるか、どの情報が自分だけが持っているか、そして自分が追加する価値は何かを認識する必要があります。今それを実行する必要があります。私の知る限り、それが唯一の選択肢だからです」とシール氏は述べました。
Seale 氏は、 2025 年の予測についてもいくつか発表しました。データ クラッシュ、データ ファブリックの基盤としてのナレッジ グラフ、オントロジーを介したGraphRAG 、推論 LLM による形式推論の近似などです。これらに関する詳細な会話については、ポッドキャストのエピソードをご覧ください。全体として、Seale 氏は、AI は短期的には過大評価されているものの、長期的には過小評価されていると考えています。
Seale は、ナレッジ グラフとオントロジーを、それに対応する準備ができている組織に適用することに取り組んでいます。しかし、これにはコストがかかり、すべての人に拡張できるわけではありません。さらに、必要な教育や基礎的なデータ作業をすべて行うことができるコンサルタント会社はありません。
Pragmatic AI アプローチは、データの基本原則、管理、ガバナンス、モデリング、データ サイエンスについて教育することで、このギャップを埋めます。次に、組織固有のドメイン知識を活用して、信頼性が高く検証済みのデータに基づいて AI システムを構築できます。
理論と実践ラボ。オールインクルーシブのリトリート。座席数限定のグループ。
Pragmatic AI コースは、経営幹部、マネージャー、起業家、コンサルタント、クリエイターに、真のビジネス価値をもたらす AI システムの構築に必要な基礎知識と実践的な専門知識を提供します。基礎から始めて、組織の真実のレイヤーの作成を有利に進め、AI 時代の競争上の優位性を獲得しましょう。