今日、僕は話している ラマスワミ、 THE HEAD OF Googleのデータコモンズ Premと彼のチームは最近、 データコモンズ モデル コンテキスト プロトコル (MCP) Server それは、建設者と開発者に信頼できる、検証可能なデータのボートロードにアクセスするためのGoogleの努力です。独自の独自の標準プロトコルを構築するのではなく、Google Data Commonsは、Anthropicのオープンソースモデルコンテキストプロトコルに基づいて構築することを選択しました。私たちはMCP、リアルユニット経済、非構造化データと幻覚の課題、そしてこれらがインターネットビジネスの未来に何を意味するかについて話します。 ラマスワミ、 Googleのデータコモンズ データコモンズ モデル コンテキスト プロトコル (MCP) Server David Smooke: What strategies should AI researchers and builders be leveraging to make AI hallucinate less often? Prem Ramaswami: 研究者とビルダーは、モデルがクエリを解釈するが、信頼できるデータベースからの情報のみを返す信頼できる、権威あるデータソースにAIの出力を土台にすることができます。 私たちは、データソースをオープンソースで透明にし、モデル応答を厳密に信頼できるデータに制限し、継続的な評価とフィードバックを組み込みます。私たちはまた、最近リリースされたモデルコンテキストプロトコル(MCP)サーバーを通じて、その権威あるデータへのアクセスを簡素化し、AIエージェントが私たちのデータリソースを発見し、アクセスする標準化された方法を提供します。 Data Commons has been around since 2018. Can you walk us through its purpose, traction, and current scale? What does success look like for Data Commons, and how much historical vs. real-time data are we talking about? Data Commons は、重要な公的データがたくさんあるという事実から生まれたが、それは正確に使いやすくも役に立たない。 見つけるのは難しい、散らばっている、使用する前に 500 ページの PDF を読み取る必要があり、作業するのが難しい。 米国人口普及局、国連、ユーロスタット、世界銀行は、それを普遍的に利用可能かつ有用にする。 1 キャンペーン 今日、私たちは何百ものデータセットと何万もの変数を統合し、健康、経済、持続可能性などの分野で数十億のデータポイントをサービスしています。Data Commonsの成功は、高品質で透明なデータへのアクセスを民主化し、誰もが迅速に信頼できる答えを得ることができ、インテリジェントな決定を下すことができます。 そして で。 ここ この動画 Why does MCP matter? What is Google's strategic approach to MCP? And more specifically, what is the Data Commons strategic approach to MCPs? MCPはAIエージェントとアプリケーションがデータソースにアクセスするためのオープンで標準化された方法を作成します。AIシステムがより普及するにつれて、その出力の信頼性と透明性は、彼らが実際のデータに答えをどのように基づけるかに依存します - and Data Commons delivers that real data with the benefit of MCP. Instead of having to know the ins and outs of our API, or our data model, you can use the “intelligence” of the LLM to help interact with the data at the right moment. 私たちは、複数の組織が貢献し、共有された基準を採用するオープンなエコシステムが、より良い品質、より信頼性の高いAIアプリケーション、より広範な社会的利益をもたらすと信じています。 我々はMPCサーバを構築し、AIモデルに容易にアクセスできる広大な公共データレポジトリを提供し、パートナーと協力してベストプラクティスを確立する。我々の目標は、開発者、NGO、ジャーナリスト、政府、そして信頼性の高いデータを必要とするすべての人に力を与え、次世代のAI駆動ツールに信頼と透明性の基盤を構築することである。 Why did Google choose to build on Anthropic's open-source MCP standard rather than create its own? What was the internal debate like re an a proprietary vs. open source protocol? And how did Googleがアントロピックの14%を所有 impact the decision? Googleがアントロピックの14%を所有 オープンソースに取り組んでいる小さなチームとして、Data Commonsの目標は主に幅広い相互運用性を確保し、信頼性の高いデータベースのAIアプリケーションの開発を加速することです。 フォーマットと私たちのオントロジーのほとんどは、 BigQuery などの Google Cloud データベースや業界製品を含む多くの Google 製品は、すでに MCP に統合されており、簡単な選択肢となっています。 統計データメタ交換(SDMX) スケジュール.org What are the unit economics here? How expensive is a query? Is this a free product forever, or are there future plans for a paid tier based on usage? What is to prevent Data Commons from being sunset in the future? Data Commons はオープンソースなので、ユーザーと開発者の繁栄するコミュニティが成長を助けることを希望し、Google はその成功へのコミットメントを示しています。現在、Data Commons はアクセスを最大化することに焦点を当てています。 Data Commons は検索にデータを提供するのに役立ち、別々に私たちはLLM をより信頼性と信頼性を高めることができるさまざまな方法を積極的に研究しています。 で。 データコモンズ.org MCPのスマートな側面の1つは、ユーザーが使用できることです。 MCP サーバーと相互作用するために、ユーザーの LLM は、人間の言語のクエリを API 呼び出しのセットに翻訳し、その結果をユーザーに解釈します。 their own LLM 注目すべきは、データコモンズへのAPIリクエストの数に限界を設定し、広範囲に使用を奨励したいが、不正や純粋なスカッピングがないことを確実にしたい。 What techniques does the Data Commons API use to make its data cleaner, more structured and more accessible than the average public data dump? And what general advice do you have for usefully structuring unstructured data? 私たちは、数千のソースから原始公開データを単一のカノニカルオントロジーに輸入します - データセットの1つの列が「Type 2 Diabetes」と、別のデータセットの他の列がICDコード「E11」を持っている場合、私たちは両方とも同じことを言及していることを理解することができます。 すべてのデータポイントには、詳細なメタデータと出身地が付属し、ユーザーは常に情報がどこから来ているかを知っているため、これらの原則に焦点を当てることで、ユーザーは異なるデータを有益で操作可能なリソースに変えることができます。 What types of verticals and companies do you see using this MCP server to grow their business? And what specific datasets are you most excited to see developers build on, and why? 言い換えれば、私は一つの政府機関からのデータセットだけを見ることができないが、複数のデータセットを組み合わせる必要がある。 この例として、One Campaign は最近、医療資金調達データのためのインタラクティブなプラットフォームである ONE Data Agent を立ち上げました. この新しいツールにより、ユーザーは、単純な言語を使用して、数千万の医療資金調達データポイントを数秒で迅速に検索することができます. 彼らはそのデータを視覚化し、クリーンなデータセットをダウンロードし、時間を節約し、弁護、報告、政策作成を改善するのに役立ちます. 開発者が公衆衛生、気候、経済、教育、その他の多くの分野でデータコミュニティに輸入されたデータセットについて新たな理解を構築することを楽しみにしています. これらは、よりアクセスし、実行可能にされると、現実世界の影響を引き起こすことができる基本的なデータセットです - コミュニティが進歩を測定し、どの介入がどの結果につながるかをより明確に理解するのを助けます. それは私たちが持続可能性の目標を達成するのを助け、経済の変化を早期に検出したり、弁護団体を過剰に負担したりすることができます. MCP サーバはこれらの分野のイノベーターの障害を低下させます。 How do you define "trustworthy" data in a way that is verifiable and auditable for a developer building an application on top of your platform? 私たちにとって、「信頼できる」データは、政府機関、学術機関、市民社会グループなどの権威ある評判の高い組織から来ています。当社のプラットフォーム上のすべてのデータポイントには、元のソースを含む詳細なメタデータが付属しています。 開発者にとって、これは、いつでも、数字や統計をその起源に追跡し、収集された文脈をレビューし、限界を理解することを意味します。当社のプラットフォームは、APIを通じてこの起源を透明に表し、答えを提供するだけでなく、ユーザーにすべての結果の背後にある証拠と監査の痕跡を提供するアプリケーションを簡単に構築します。 我々は、これらのデータセットや特定の値について判断しようとしません。むしろ、我々は、このデータにおける潜在的な不一致がより容易に目に見えるようにしたいです。 The industry has a problem with AI "hallucinations." Is Google's long-term bet that the future of credible AI will be built on verifiable data layers like Data Commons, rather than on models with ever-larger training sets? 私たちはLLMsとの仕事で非常に早いのです。Googleのトランスファーザー・ペーパーは2017年にリリースされました! 現時点では、幻覚に対する答えは、上記のすべてを試すことだと信じています。 Data Commonsは、出力を起源を含む検証可能なデータに基づかせようとしています。 私たちの長期的な賭けは、最も信頼性の高いAIシステムが、これらのモデルの強みと強力で監査可能なデータソースを組み合わせることです。 What's on the Data Commons MCP Server roadmap for next year? Are there specific data sources or capabilities you're planning to add that developers should be excited about? あなたが9ヶ月前に私のロードマップを教えてくれたら、私はMCPについてあなたに話していなかったでしょう! 今、AI空間での開発と変化のペースはうるさいです。 現在、データ・コモンズのデータは、米国、その後インド、その後OECD諸国で多くの深さとカバー範囲を持っており、カバー範囲が薄くなり、チームが現在積極的に取り組んでいるギャップを閉じる。 たとえば、我々は最近、統計データメタ交換形式(SDMX)と互換性を確保するために取り組んでおり、データコモンズが異なるオープンな標準でよりシームレスに動作する能力を引き続き高めていきたいと考えています。 Five years from now, do you think every major AI application will have some kind of structured data layer like Data Commons underneath it, or will we still be building on top of pure language models? AIが重要なアプリケーションにより深く統合されるにつれて、信頼性と信頼性の高い情報の必要性は増加するばかりです。仮定すれば、業界はハイブリッドシステムに向かって、間違いなく近い将来、言語モデルがインターフェイスと推論を提供するようになると予想しますが、事実と証拠は常に強力で権威あるデータソースから来ています。 Ten years from now, what aspects of your current job will AI not be able to do? 正直なところ、私は今日私がやっているAIが何をするかについて心配することは少なくなり、私は決してできないAIが何をするかについて興奮しています。 私たちの人間の心は3次元で考えるように訓練されています。私たちは4Dで素晴らしいわけではありません。しかし、我々が以前話した全体的な問題のほとんどは30/60/3000次元の問題です。たとえば、都市空間を設計するとき、建物のフロントプリントのすべての変更は異なり、移動ネットワークを変更し、歩行能力を変更し、財政的結果を変更し、さらに多くを希望します。10年後には、私たちはより信頼性が高くモデル化し、そのようなシステムを理解し、どの介入が私たち全員にとって最高の生活の質を向上させることができるかを理解することができます。 Tomorrow, what is the most important thing on your calendar? 個人的な答え: 妻と子供たちと夕食を食べるのも、私がやっている問題に一生懸命取り組んでいる理由です。 仕事の答え: 私たちのチームミーティング! 文化は朝食のための戦略を食べます。 私たちは困難な「低ドーパミン」の空間で働き、今日の私たちの行動が将来針を動かすかどうかは明らかではありません。私はこのインタビューを送ることができますが、私の背後には毎日一緒に働く素晴らしいチームがあります。テディ・ルーズベルトの「アリーナの男」についての引用は毎朝私にとって真実です。 Lastly, if you could fix one thing about how the world treats data, what would it be? あまりにも頻繁に、貴重な公共データはシロに閉じ込められ、見つけるのが難しい、またはそれらをわずかな専門家以外の誰にでもアクセスできない方法で提示されます。もし私たちがデータを、明確なソース、文脈、および文書とともに、誰もが簡単に利用できるようにするなら、私たちは、イノベーション、責任、および知的意思決定のための巨大な可能性を解き放つでしょう。 もっと知る About プリム・ラマスワミ 「The Head of Googleのデータコモンズ で。 プリム・ラマスワミ Googleのデータコモンズ