Dzisiaj rozmawiam z Prem Ramaswami Głowa z Data Commons w Google Prem i jego zespół niedawno uruchomili Data Commons Model Protokołu Kontekstowego (MCP) Zamiast budować własny protokoł standardowy, Google Data Commons zdecydował się budować na protokołach Open-Source Model Context Protocol firmy Anthropic.Będziemy rozmawiać o MCP, realnej ekonomii jednostkowej, wyzwaniach związanych z nieustrukturyzowanymi danymi i halucynacjami oraz o tym, co to wszystko oznacza dla przyszłości budowania biznesu internetowego. Prem Ramaswami Data Commons w Google Data Commons Model Protokołu Kontekstowego (MCP) David Smooke: What strategies should AI researchers and builders be leveraging to make AI hallucinate less often? Prem Ramaswami: Naukowcy i konstruktorzy mogą zakładać wyjścia AI w zaufanych, autoryzowanych źródłach danych, w których model interpretuje zapytania, ale zwraca tylko informacje pochodzące z wiarygodnych baz danych. Łączy światowe dane publiczne z wiarygodnych i weryfikowalnych źródeł.Pomagamy w przejrzystaniu źródeł danych w sposób otwarty, ograniczamy odpowiedź modelu ściśle do wiarygodnych danych i włączamy ciągłą ocenę i informacje zwrotne.Również usprawniamy dostęp do tych autoryzowanych danych za pośrednictwem naszego niedawno wydanego serwera Model Context Protocol (MCP), który zapewnia standardowy sposób dla agentów AI, aby odkrywać i uzyskać dostęp do naszych zasobów danych. Data Commons has been around since 2018. Can you walk us through its purpose, traction, and current scale? What does success look like for Data Commons, and how much historical vs. real-time data are we talking about? Data Commons wywodzi się z faktu, że istnieje wiele ważnych danych publicznych dostępnych, ale nie są one dokładnie użyteczne lub użyteczne. Trudno je znaleźć, są rozproszone, przed użyciem musisz przeczytać 500 stron PDF i trudno jest z nimi pracować. , amerykańskiego biura spisu ludności, Narodów Zjednoczonych, Eurostatu i Banku Światowego, co czyni go zarówno powszechnie dostępnym, jak i przydatnym. Jedna kampania Dziś integrujemy setki zbiorów danych i dziesiątki tysięcy zmiennych, obsługując miliardy punktów danych w różnych sektorach, takich jak zdrowie, gospodarka i zrównoważony rozwój. Sukces Data Commons polega na demokratyzacji dostępu do wysokiej jakości, przejrzystych danych, dzięki czemu każdy może szybko uzyskać wiarygodne odpowiedzi i podejmować świadome decyzje. i ... tutaj To wideo Why does MCP matter? What is Google's strategic approach to MCP? And more specifically, what is the Data Commons strategic approach to MCPs? Ponieważ systemy sztucznej inteligencji stają się coraz bardziej rozpowszechnione, niezawodność i przejrzystość ich wyjść zależy od tego, jak dobrze mogą one oprzeć swoje odpowiedzi na prawdziwych danych – a Data Commons dostarcza tych prawdziwych danych z korzyścią dla MCP. Zamiast znać wtyczki naszego API lub naszego modelu danych, możesz użyć „inteligencji” LLM, aby pomóc w interakcji z danymi w odpowiednim momencie. Wierzymy, że otwarty ekosystem, w którym wiele organizacji przyczynia się i przyjmuje wspólne standardy, prowadzi do lepszej jakości, bardziej niezawodnych aplikacji AI i szerszych korzyści dla społeczeństwa. Zbudowaliśmy serwer MPC, dzięki czemu nasze ogromne repozytorium danych publicznych jest łatwo dostępne dla modeli AI i współpracujemy z partnerami, aby określić najlepsze praktyki.Naszym celem jest umożliwienie deweloperom, organizacjom pozarządowym, dziennikarzom, rządom i każdemu, kto potrzebuje wiarygodnych danych, a jednocześnie budowanie fundamentu zaufania i przejrzystości w następnej generacji narzędzi zasilanych AI. Why did Google choose to build on Anthropic's open-source MCP standard rather than create its own? What was the internal debate like re an a proprietary vs. open source protocol? And how did Google ma 14% udziałów w firmie Anthropic impact the decision? Google ma 14% udziałów w firmie Anthropic Jako mały zespół pracujący nad otwartym źródłem danych, celem Data Commons jest przede wszystkim zapewnienie szerokiej interoperacyjności i przyspieszenie rozwoju niezawodnych, opartych na danych aplikacji AI. formatu i większość naszej ontologii jest rozszerzeniem Wiele produktów Google, w tym bazy danych Google Cloud, takie jak BigQuery i produkty branżowe, zostały już zintegrowane z MCP, co czyni go łatwym wyborem. Metadane statystyczne MetaExchange (SDMX) Szkolenia.org What are the unit economics here? How expensive is a query? Is this a free product forever, or are there future plans for a paid tier based on usage? What is to prevent Data Commons from being sunset in the future? Data Commons jest źródłem otwartym, więc mamy nadzieję, że rozwijająca się społeczność użytkowników i deweloperów pomoże mu się rozwijać, a Google wykazało zaangażowanie w ten sukces. Obecnie Data Commons koncentruje się na maksymalizacji dostępu. Data Commons pomaga dostarczać dane do wyszukiwania i oddzielnie aktywnie bada różne sposoby, dzięki którym możemy uczynić LLM bardziej niezawodnymi i wiarygodnymi. ... Informacje o DataCommons.org Jednym z najciekawszych aspektów MCP jest to, że nasi użytkownicy mogą korzystać Innymi słowy, LLM użytkownika jest tym, co tłumaczy zapytanie ludzkiego języka na zestaw połączeń API, a następnie interpretuje wynik z powrotem do użytkownika. their own LLM Należy zauważyć, że wyznaczamy limit na liczbę żądań API do Data Commons, chcemy zachęcić do szerokiego wykorzystania, ale także chcemy upewnić się, że nie ma nadużyć ani czystego skrapienia. What techniques does the Data Commons API use to make its data cleaner, more structured and more accessible than the average public data dump? And what general advice do you have for usefully structuring unstructured data? Importujemy surowe dane publiczne z tysięcy źródeł do jednej, kanonicznej ontologii - jeśli jedna kolumna w jednym zbiorze danych mówi „cukrzyca typu 2”, a druga kolumna w innym zbiorze danych ma kod ICD „E11”, możemy zrozumieć, że oba odnoszą się do tej samej rzeczy. Każdemu punktowi danych towarzyszą szczegółowe metadane i pochodzenie, dzięki czemu użytkownicy zawsze wiedzą, skąd pochodzą informacje. What types of verticals and companies do you see using this MCP server to grow their business? And what specific datasets are you most excited to see developers build on, and why? Innymi słowy, nie mogę po prostu spojrzeć na jeden zbiór danych z jednej agencji rządowej, ale muszę połączyć wiele zbiorów danych. Na przykład kampania One niedawno uruchomiła ONE Data Agent, interaktywną platformę dla danych dotyczących finansowania zdrowia.Nowe narzędzie umożliwia użytkownikom szybkie przeszukiwanie dziesiątek milionów punktów danych dotyczących finansowania zdrowia w ciągu kilku sekund, używając prostego języka. Jestem podekscytowany, widząc, jak deweloperzy budują nowe zrozumienie zbiorów danych importowanych do Data Commons w dziedzinie zdrowia publicznego, klimatu, ekonomii, edukacji i wielu innych dziedzinach. Są to podstawowe zbiory danych, które, gdy staną się bardziej dostępne i skuteczne, mogą prowadzić do rzeczywistego wpływu – pomagając społecznościom mierzyć postępy i, mam nadzieję, lepiej zrozumieć, które interwencje prowadzą do których wyników. Może pomóc nam osiągnąć cele zrównoważonego rozwoju, wcześnie zidentyfikować zmiany gospodarcze lub nadmiernie obciążać organizacje obrończe. serwer MCP obniża bariery dla innowatorów w tych dziedzinach, a ja nie mogę się doczekać kreatywnych rozwiązań. How do you define "trustworthy" data in a way that is verifiable and auditable for a developer building an application on top of your platform? Dla nas „zaufane” dane pochodzą od autoryzowanych i renomowanych organizacji, takich jak agencje rządowe, instytucje akademickie i grupy społeczeństwa obywatelskiego. Dla deweloperów oznacza to, że zawsze można śledzić dowolną liczbę lub statystykę z powrotem do jej pochodzenia, przeglądać kontekst, w którym została zebrana, i rozumieć wszelkie ograniczenia. nasza platforma przejrzyście przedstawia to pochodzenie za pośrednictwem API, co ułatwia budowanie aplikacji, które nie tylko dostarczają odpowiedzi, ale także dostarczają użytkownikom dowodów i śladu audytu za każdym wynikiem. Nie staramy się oceniać tych zbiorów danych lub określonych wartości.Zamiast tego chcemy, aby potencjalne rozbieżności w tych danych były bardziej widoczne.Każda z tych różnic to inna historia do opowiedzenia. The industry has a problem with AI "hallucinations." Is Google's long-term bet that the future of credible AI will be built on verifiable data layers like Data Commons, rather than on models with ever-larger training sets? Nie w ogóle. Jesteśmy bardzo wczesni w naszej pracy z LLM. Papier transformatorowy Google został wydany w 2017 roku! W tej chwili uważam, że odpowiedzią na halucynacje jest wypróbowanie wszystkich powyższych. Data Commons próbuje ugruntować wyniki w weryfikowalnych danych o pochodzeniu. Naszym długoterminowym zakładem jest to, że najbardziej niezawodne systemy sztucznej inteligencji łączą mocne strony tych modeli z solidnymi, audytowalnymi źródłami danych. What's on the Data Commons MCP Server roadmap for next year? Are there specific data sources or capabilities you're planning to add that developers should be excited about? Gdybyś poprosił mnie, abym 9 miesięcy temu opowiedział ci moją mapę drogi, nie rozmawiałbym z tobą o MCP! Obecnie dane Data Commons mają dużo głębokości i zasięgu w Stanach Zjednoczonych, a następnie w Indiach, a następnie w krajach OECD, a następnie zasięg zmniejsza się, przepaść, którą zespół teraz agresywnie pracuje nad zamknięciem. Chcemy, aby Data Commons było łatwiejsze w użyciu.Na przykład, ostatnio pracowaliśmy nad tym, aby uczynić go kompatybilnym z formatem Statistical Data Meta Exchange (SDMX) i mamy nadzieję, że będziemy nadal zwiększać zdolność Data Commons do pracy z różnymi otwartymi standardami bardziej bezproblemowo. Five years from now, do you think every major AI application will have some kind of structured data layer like Data Commons underneath it, or will we still be building on top of pure language models? W miarę jak sztuczna inteligencja staje się coraz głębiej zintegrowana z aplikacjami, które mają znaczenie, potrzeba wiarygodnych i wiarygodnych informacji tylko wzrośnie.Jeśli mam się domyślić, spodziewam się, że branża przejdzie na systemy hybrydowe, zdecydowanie w najbliższej perspektywie, gdzie modele językowe zapewniają interfejs i rozumowanie, ale fakty i dowody zawsze pochodzą z solidnych, autoryzowanych źródeł danych. Ten years from now, what aspects of your current job will AI not be able to do? Szczerze mówiąc, jestem mniej zaniepokojony tym, co AI zrobi, a bardziej podekscytowany tym, co AI zrobi, czego nigdy nie byłbym w stanie zrobić. Pozwólcie mi dać wam przykład. Nasze ludzkie umysły są przeszkolone, aby myśleć w trzech wymiarach. Nie jesteśmy wielcy w 4D. Jednak większość holistycznych problemów, o których mówiliśmy wcześniej, to problemy wymiarowe 30/60/3000. Przy projektowaniu przestrzeni miejskiej, na przykład, każda zmiana w odcieniu podłogi budynku rzuca cienie inaczej, zmienia sieci mobilności, zmienia chodzenie, zmienia wyniki finansowe i wiele więcej. Mam nadzieję, że za 10 lat będziemy mogli bardziej niezawodnie modelować i rozumieć takie systemy, aby zrozumieć, które interwencje mogą mieć najlepszą jakość życia dla nas wszystkich. Tomorrow, what is the most important thing on your calendar? Odpowiedź osobista: Kolacja z żoną i dziećmi.Właśnie dlatego ciężko pracuję nad problemami. Odpowiedź pracy: Nasze spotkanie zespołowe! Kultura zjada strategię na śniadanie. Pracujemy w trudnej, „niższej dopaminy” przestrzeni, gdzie nie jest jasne, czy nasze dzisiejsze działania przesuwają igłę w przyszłości. dostaję się do udzielenia tego wywiadu, ale za mną jest wspaniały zespół, z którym mogę pracować codziennie. cytat Teddy'ego Roosevelta o „człowieku na arenie” brzmi dla mnie każdego ranka. „Jeśli mu się nie uda, przynajmniej nie odważy się bardzo.” Lastly, if you could fix one thing about how the world treats data, what would it be? Zbyt często cenne dane publiczne są zamykane w silosach, trudno je znaleźć lub prezentowane w sposób, który sprawia, że są niedostępne dla wszystkich oprócz kilku ekspertów.Jeśli uczyniłbyśmy dane, wraz z jasnym źródłem, kontekstem i dokumentacją otwartą i łatwo dostępną dla wszystkich, odblokowalibyśmy ogromny potencjał dla innowacji, odpowiedzialności i świadomego podejmowania decyzji. Dowiedz się więcej o Prem Ramaswami Głowa tego Data Commons w Google ... Prem Ramaswami Data Commons w Google