How a rocket scientist turned entrepreneur created the “ChatGPT for Earth data” using transformers and satellite imagery Bruno Sánchez é un científico de foguetes cunha traxectoria algo desviada. Un astrofísico por adestramento, usou as ferramentas da súa profesión - matemáticas e ciencia - na máis ampla escala posible: o universo. Sánchez tivo unha estancia no Banco Mundial, onde como membro de equipos interdisciplinares axudou a dar sentido aos datos xeoespaciais.Entón decatouse de que o núcleo do que estaba a facer era mapear, o que o levou a lanzar unha empresa chamada Mapbox, que proporcionaba mapas en liña na web. Esta experiencia trouxo outra comprensión para Sánchez - que que realmente non sabemos como usalo: “Sabemos cales son as árbores do mundo.Sabemos cales son os bosques do mundo.É só unha cuestión de procesar [os datos] correctamente”, como o dixo. Temos moita información sobre a Terra Entón, cando tivo a oportunidade de tentar poñer todo iso xuntos no mesmo centro de datos e nunha mesa de traballo, foi por iso. Sánchez sinalou que o T en ChatGPT - o - era unha arquitectura que parecía funcionar ben para modalidades como texto, imaxes e audio, pero ninguén parecía usalo para os datos da Terra.Entón decidiu probar.Construíu un equipo, levantou fondos, creou unha organización sen ánimo de lucro e construíu un modelo de código aberto usando datos abertos. que naceu. Transformacións Clay Clay: the ChatGPT of Earth data? Clay: o ChatGPT dos datos da Terra? "É incrible. É orde de magnitude máis rápido, máis barato e mellor que calquera outra cousa que xa vimos, que é exactamente o mesmo que ocorreu con texto e imaxes e audio. É proba de novo de que este T de ChatGPT, o transformador, é unha invención humana incrible", sinalou Sánchez, verdadeiramente entusiasmado con Clay. "É incrible. É orde de magnitude máis rápido, máis barato e mellor que calquera outra cousa que xa vimos, que é exactamente o mesmo que ocorreu con texto e imaxes e audio. É proba de novo de que este T de ChatGPT, o transformador, é unha invención humana incrible", sinalou Sánchez, verdadeiramente entusiasmado con Clay. Entón, o que é exactamente Clay - que fai, e como funciona? Sánchez coloca Clay en termos abstractos como unha arquitectura. É un procesador que toma calquera tipo de imaxe da terra (satélite, avión ou dron) e "entende" o que está na imaxe. Pode identificar calquera obxecto - desde avións a cultivos e da auga a barcos, e pode contar cantos deles están nunha imaxe. Aínda que o galego era e usa a arquitectura do transformador, chamándoo o ChatGPT dos datos da Terra non sería exacto por unha serie de razóns. Inspirado en ChatGPT Unha diferenza clave é o tipo de datos sobre os que Clay foi adestrado - imaxes en vez de texto. que en si é unha brecha fundamental, que se fai aínda máis profunda considerando a natureza desas imaxes, e como se usa o modelo. Clay non foi adestrado en só calquera tipo de imaxe, pero imaxes dun tipo moi específico: fotografías aéreas de alta resolución de terra que forman parte de Sánchez observou que isto é parte da razón pola que as alucinacións, un dos problemas máis pronunciados con modelos baseados en transformadores, é moito menos un problema con Clay. Datos de dominio público Clay, como ChatGPT e o seu ilk, depende de - Representacións numéricas de alta dimensión dos datos que trata.Pero ademais dos datos cos que traballa Clay, as incorporacións que produce e a forma de usalos son todos diferentes. Embaixadas A diferenza dos seus homólogos, actualmente a interacción con Clay non implica unha interface de texto. Nin sequera pasa por Clay en absoluto. No canto diso, o equipo de Clay anima ás persoas a usar o modelo para xerar embeddings, e despois traballar directamente con eles. The power of embeddings O poder dos embrións Como explicou Sánchez, Clay alavanca Isto significa que as imaxes non só se comprimen a través das súas representacións de embalaxe, senón que tamén se eliminan partes da imaxe. Máquinas de autoencodificación Por exemplo, se unha imaxe contén partes dunha cara, iso probablemente significa que outras partes tamén están alí. Os AutoEncoders enmascarados usan codificadores e decodificadores, e permiten que Clay Orixinalmente, a idea era adestrar o modelo fundacional de Clay e, a continuación, axustar os decodificadores só para tarefas específicas, como contar coches, por exemplo. Escala sen etiquetas de datos humanos Pero entón o equipo de Clay decatouse de que poderían crear incorporacións que son universalmente aplicables. Entón xeran incorporacións, e entón usan as incorporacións para crear un decodificador, saltando o codificador. A principal motivación é que isto permite obter respostas en milisegundos, non en semanas. Usando só as incorporacións e unha Aínda así, como di Sánchez: Base de datos vectorial “Imaxina que temos un usuario que quere atopar os paneis solares en Grecia, e fixemos incorporacións para toda Grecia.Entón é literalmente milisegundos para saber; pode que non teñamos unha resposta perfecta, pero teremos unha boa resposta de onde están os paneis solares. “Imaxina que temos un usuario que quere atopar os paneis solares en Grecia, e fixemos incorporacións para toda Grecia.Entón é literalmente milisegundos para saber; pode que non teñamos unha resposta perfecta, pero teremos unha boa resposta de onde están os paneis solares. Entón, se alguén vén xunto e quere atopar algo máis, como barcos ou construción, as mesmas incorporacións utilízanse para esa nova operación. que significa que só tes que crealas unha vez. Entón, se alguén vén xunto e quere atopar algo máis, como barcos ou construción, as mesmas incorporacións utilízanse para esa nova operación. que significa que só tes que crealas unha vez. Clay meets Plato Clay coñece a Platón A universalidade das incorporacións é un tema que despertou moito interese na comunidade de IA. , é dicir, unha estrutura semántica universal conxectada pola Hipótese de Representación Platónica. publicación dun enfoque non supervisado que traduza calquera incorporación a e de unha representación latente universal A súa Un grupo de investigadores da Universidade de Cornell propuxo unha versión máis forte e construtiva desta hipótese para modelos de texto. Hipótese de representación platónica En termos de precisión, Sánchez compartiu algúns descubrimentos empíricos, observando que o equipo elixiu centrarse noutras áreas en vez de referencias. As incorporacións de barro, observou, funcionan mellor cando o obxecto a identificar é o obxecto dominante na imaxe. A precisión tamén depende do tamaño do obxecto, polo que se xeran incorporacións de diferentes tamaños. Ademais, as incorporacións necesitan ser rexeneradas periodicamente para reflectir os cambios que ocorren na superficie da Terra - cousas como desastres naturais ou traballos de construción. . Ergonomía Os sistemas ergodicos son sistemas nos que todos os estados posibles están presentes en calquera momento. Por exemplo, se debido ao cambio climático en España algunhas partes de Madrid se volven ao deserto, este é algo que o modelo nunca viu antes. Únete á Orquestra todas as cousas Newsletter Historias sobre como a tecnoloxía, os datos, a IA e os medios de comunicación flúen entre si e forman as nosas vidas. Análise, ensaios, entrevistas e noticias. formato medio a longo, 1-3 veces ao mes. Suscríbete aquí 👉 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Únete á Orquestra todas as cousas Newsletter Historias sobre como a tecnoloxía, os datos, a IA e os medios de comunicación flúen entre si e forman as nosas vidas. Análise, ensaios, entrevistas e noticias. formato medio a longo, 1-3 veces ao mes. Subscribe aquí 🙂 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Multi-modality: Clay and text Multi-modalidade: Clay e texto Pero que pasa co texto? Sánchez recoñeceu que poder combinar o poder dos modelos de texto co poder dos modelos da Terra desbloquearía outra variedade de posibilidades. Facer de Clay multi-modal permitiría atopar relacións utilizando a semántica textual tamén. O equipo está a traballar activamente sobre isto, pero Sánchez observou que os datos de texto presentan desafíos que os datos da Terra non teñen, principalmente tendo que ver coa veracidade. . OpenStreetMaps Páxina https://pod.co/orchestrate-all-the-things-podcast-connecting-the-dots-with-george-anadiotis/building-ai-for-earth-with-clay-the-intelligence-platform-transforming-geospatial-data-analysis-featuring-clay-executive-director-bruno-snchez?embedable=true Primeiro, usan Clay para producir unha incorporación dunha imaxe da Terra. Entón toman a mesma imaxe e usan a API de OpenStreetMaps para interrogar por etiquetas do mesmo territorio. OpenStreetMaps responde con caracterizacións como un deserto, un río ou un aparcadoiro, e un modelo de texto úsase para crear unha incorporación diso. A continuación, o equipo toma as 2 incorporacións desta localización - unha de Clay e unha do modelo de texto - e tratan de descubrir como aliñalas. O obxectivo é minimizar as perdas ao tentar recrear unha da outra ou atopar similitudes. AI and environmental impact AI e impacto ambiental A pesar do seu entusiasmo polos transformadores, Sánchez recoñece que non son perfectos.A principal razón pola que a arquitectura do transformador foi escollida para Clay foi o feito de que a industria e a investigación puxeron o seu peso detrás dela, polo que hai moitos recursos e experiencia que se poden aproveitar. "Se tivese que escoller desde cero e tivese o financiamento para impulsar o movemento mundial de IA, quizais non elixiríamos os transformadores, pero esa decisión non está nas nosas mans", dixo Sánchez. As principais desvantaxes dos transformadores que o equipo de Clay tivo que tratar teñen que ver coa cantidade de datos e computación que se necesita para adestrar modelos, e a súa sensibilidade. Require aínda máis datos e computación para producir modelos finamente axustados, e os resultados son fráxiles e excesivamente especializados. O ordenador é unha cuestión O equipo de Clay comezou cunha proba de concepto antes da recadación de fondos para realizar o extenso adestramento necesario para producir o modelo. Ata a data, só houbo 2 iteracións do modelo de Clay, e Sánchez quere minimizar a cantidade de adestramento necesario -de aí o uso de embeddings. Debido ao seu mandato no Planetary Computer de Microsoft, Sánchez sabe ben o extremadamente esixente que é a IA en termos de electricidade, auga e outros recursos.A ironía de tratar de aplicar a IA para potencialmente reducir a degradación ambiental non se perde nel. A idea, di, é que Clay está aberto non só na súa saída, senón tamén na forma en que o equipo traballa e o enfoque. para a Terra de dúas maneiras. A pegada ambiental de AI En primeiro lugar, facendo que as persoas con obxectivos similares se unan, polo que en vez de adestrar máis modelos, se unen ao redor de Clay. Working with Clay and LGND Traballando con Clay e LGND Todo está ben e ben, pero cal é realmente a mellor forma para que as persoas usen Clay?É unha pregunta aberta.Ademais de incorporacións e axustes finos, que requiren experiencia e recursos, e texto, que é experimental, o equipo de Clay tamén desenvolveu unha aplicación chamada . Clay Exploracións "É un mapa.Clique en lugares, e permite atopar cousas.Pero entón preguntámonos: é un mapa porque merece ser un mapa ou porque estou acostumado a mapas porque estou nesta industria e quero un mapa? "É un mapa.Clique en lugares, e permite atopar cousas.Pero entón preguntámonos: é un mapa porque merece ser un mapa ou porque estou acostumado a mapas porque estou nesta industria e quero un mapa? Estamos pensando que quizais o xeito de maximizar a utilidade de Clay non sexa un mapa. Quizais tamén sexa unha interface de chat. Quizais sexa só unha columna nunha folla de cálculo. Estamos pensando que quizais o xeito de maximizar a utilidade de Clay non sexa un mapa. Quizais tamén sexa unha interface de chat. Quizais sexa só unha columna nunha folla de cálculo. Sánchez tamén está explorando formas de prestar servizos e desenvolver produtos en torno a Clay a través É os primeiros días, pero a empresa xa ten algúns clientes pagantes e agora está pechando unha rolda de financiamento de sementes. LGND "O máis importante é que temos unha idea clara do que é o servizo, pero ao mesmo tempo, estamos saudables en non saber o que é o produto.Porque se o que estamos a falar aquí é cambiar a industria xeoespacial, o pensamento sobre iso [debería] ser completamente diferente. "O máis importante é que temos unha idea clara do que é o servizo, pero ao mesmo tempo, estamos saudables en non saber o que é o produto.Porque se o que estamos a falar aquí é cambiar a industria xeoespacial, o pensamento sobre iso [debería] ser completamente diferente. Non somos unha empresa xeoespacial, somos unha empresa de respostas e o noso maior risco é converternos nunha empresa xeoespacial da que hai moitos”, sinalou Sánchez. Non somos unha empresa xeoespacial, somos unha empresa de respostas e o noso maior risco é converternos nunha empresa xeoespacial da que hai moitos”, sinalou Sánchez. Going all in indo todo en A apertura é un tema clave para Clay e LGND, xa que Sánchez está aberto tanto a asociacións como a utilizar modelos distintos de Clay. "Quizais o valor é que é de código aberto. Quizais o valor é que está fóra de liña. Estamos apostando que hai algo alí. Quizais non existe. Quizais estamos equivocados e quizais as incorporacións non o son. "Quizais o valor é que é de código aberto. Quizais o valor é que está fóra de liña. Estamos apostando que hai algo alí. Quizais non existe. Quizais estamos equivocados e quizais as incorporacións non o son. Pero se é, ou na medida en que é, creo firmemente que desbloquearía tanto valor a tantas cuestións, sociais, económicas, ambientais e tamén de investimento. Pero se é, ou na medida en que é, creo firmemente que desbloquearía tanto valor a tantas cuestións, sociais, económicas, ambientais e tamén de investimento. E preferiría estar equivocado pero probalo, que esperar a ver unha tecnoloxía que me dea un cento por cento de certeza de que funcionará", é como Sánchez resume a filosofía detrás de Clay. E preferiría estar equivocado pero probalo, que esperar a ver unha tecnoloxía que me dea un cento por cento de certeza de que funcionará", é como Sánchez resume a filosofía detrás de Clay. Únete á Orquestra todas as cousas Newsletter Historias sobre como a tecnoloxía, os datos, a IA e os medios de comunicación flúen entre si e forman as nosas vidas. Análise, ensaios, entrevistas e noticias. formato medio a longo, 1-3 veces ao mes. Suscríbete aquí 👉 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Únete á Orquestra todas as cousas Newsletter Historias sobre como a tecnoloxía, os datos, a IA e os medios de comunicación flúen entre si e forman as nosas vidas. Análise, ensaios, entrevistas e noticias. formato medio a longo, 1-3 veces ao mes. Subscribe aquí 🙂 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/