How a rocket scientist turned entrepreneur created the “ChatGPT for Earth data” using transformers and satellite imagery Bruno Sánchez es un científico de cohetes con una trayectoria algo desviada. Un astrofísico por formación, utilizó las herramientas de su profesión – matemáticas y ciencia – a la mayor escala posible: el universo. Sánchez tuvo una estancia en el Banco Mundial, donde como miembro de equipos interdisciplinarios ayudó a dar sentido a los datos geoespaciales.Entonces se dio cuenta de que el núcleo de lo que estaba haciendo era el mapping, lo que le llevó a lanzar una compañía llamada Mapbox, que proporcionaba mapas en línea en la web. Esta experiencia trajo otra comprensión para Sánchez - que que no sabemos realmente cómo usarlo: “Sabemos qué son los árboles del mundo.Sabemos qué son los bosques del mundo.Es sólo una cuestión de procesar [los datos] correctamente”, como lo dijo. Hay mucha información sobre la Tierra Así que cuando tuvo la oportunidad de intentar poner todo esto juntos en el mismo centro de datos y en una mesa de trabajo, lo buscó.Ese fue el proyecto Planetary Computer en Microsoft, y Sánchez lo amó. Sánchez señaló que el T en ChatGPT – el – era una arquitectura que parecía funcionar bien para modalidades como texto, imágenes y audio, pero nadie parecía usarla para los datos de la Tierra. Así que decidió probarlo. había nacido. transformador Clay Clay: the ChatGPT of Earth data? Clay: el ChatGPT de los datos de la Tierra? “Es increíble. es orden de magnitud más rápido, más barato y mejor que cualquier otra cosa que hayamos visto, que es exactamente lo mismo que sucedió con texto, imágenes y audio. Es prueba de nuevo de que este T de ChatGPT, el transformador, es una increíble invención humana”, señaló Sánchez, verdaderamente entusiasmado con Clay. “Es increíble. es orden de magnitud más rápido, más barato y mejor que cualquier otra cosa que hayamos visto, que es exactamente lo mismo que sucedió con texto, imágenes y audio. Es prueba de nuevo de que este T de ChatGPT, el transformador, es una increíble invención humana”, señaló Sánchez, verdaderamente entusiasmado con Clay. Así que ¿qué es exactamente Clay – ¿qué hace, y cómo funciona? Sánchez coloca Clay en términos abstractos como una arquitectura. Es un procesador que toma cualquier tipo de imagen de la tierra (satélite, avión o drone) y “entende” lo que está en la imagen. Puede identificar cualquier objeto – desde aviones a cultivos y de agua a barcos, y puede contar cuántos de ellos están en una imagen. A pesar de que Clay era y utiliza la arquitectura del transformador, llamándolo el ChatGPT de los datos de la Tierra no sería exacto por una serie de razones. Inspirado en ChatGPT Una diferencia clave es el tipo de datos en los que Clay fue entrenado – imágenes en lugar de texto. que en sí misma es una brecha fundamental, que se hace aún más profunda considerando la naturaleza de esas imágenes, y cómo se utiliza el modelo. El barro no fue entrenado en ningún tipo de imagen, sino en imágenes de un tipo muy específico: fotografías aéreas de alta resolución de la tierra que forman parte de la Sánchez señaló que esto es parte de la razón por la que las alucinaciones, uno de los problemas más pronunciados con los modelos basados en transformadores, es mucho menos un problema con Clay. Datos de dominio público Clay, como ChatGPT y su ilk, depende de - Representaciones numéricas de alta dimensión de los datos que maneja.Pero además de los datos con los que trabaja Clay, las incorporaciones que produce y la forma de usarlos son todos diferentes. Embajadores A diferencia de sus homólogos, en la actualidad la interacción con Clay no implica una interfaz de texto. Ni siquiera pasa por Clay en absoluto. En cambio, el equipo de Clay anima a las personas a usar el modelo para generar embeddings, y luego trabajar directamente con estos. The power of embeddings El poder de los embriones Como explicó Sánchez, Clay alavanca Esto significa que las imágenes no solo se comprimen a través de sus representaciones de embalaje, sino que también se eliminan partes de la imagen. Autocodificadores máscaros Por ejemplo, si una imagen contiene partes de una cara, eso probablemente significa que otras partes también están allí. Los AutoEncoders enmascarados utilizan codificadores y decodificadores, y permiten a Clay Originalmente, la idea era entrenar el modelo fundacional de Clay, y luego ajustar los decodificadores sólo para tareas específicas como contar coches, por ejemplo. Escala sin etiquetadores de datos humanos Pero entonces el equipo de Clay se dio cuenta de que podrían crear embeddings que son universalmente aplicables. Por lo tanto, generan embeddings, y luego utilizan las embeddings para crear un decodificador, saltando el codificador. La motivación principal es que esto permite obtener respuestas en milisegundos, no en semanas. En este sentido, como dice Sánchez: Base de datos vectorial “Imagine que tenemos un usuario que quiere encontrar los paneles solares en Grecia, y hemos hecho embeddings para toda Grecia.Entonces es literalmente milisegundos saber; puede que no tengamos una respuesta perfecta, pero tendremos una buena respuesta de dónde están los paneles solares. “Imagine que tenemos un usuario que quiere encontrar los paneles solares en Grecia, y hemos hecho embeddings para toda Grecia.Entonces es literalmente milisegundos saber; puede que no tengamos una respuesta perfecta, pero tendremos una buena respuesta de dónde están los paneles solares. Entonces, si alguien más viene y quiere encontrar otra cosa, como barcos o construcción, se utilizan las mismas incorporaciones para esa nueva operación. Eso significa que solo tienes que crearlas una vez. Entonces, si alguien más viene y quiere encontrar otra cosa, como barcos o construcción, se utilizan las mismas incorporaciones para esa nueva operación. Eso significa que solo tienes que crearlas una vez. Clay meets Plato Clay conoce a Platón La universalidad de las incorporaciones es un tema que ha despertado mucho interés en la comunidad de IA. Este interés culminó recientemente con la , es decir, una estructura semántica universal conjeturada por la Hipótesis de Representación Platónica. la publicación de un enfoque no supervisado que traduce cualquier incorporación a y desde una representación latente universal El Los investigadores de la Universidad de Cornell propusieron una versión más fuerte y constructiva de esta hipótesis para los modelos de texto. La hipótesis de la representación platónica En términos de precisión, Sánchez compartió algunos hallazgos empíricos, señalando que el equipo ha optado por centrarse en otras áreas en lugar de en referencias. Las incorporaciones de barro, señaló, funcionan mejor cuando el objeto a identificar es el objeto dominante en la imagen. Además, las incorporaciones necesitan ser regeneradas periódicamente para reflejar los cambios que ocurren en la superficie de la Tierra – cosas como los desastres naturales o los trabajos de construcción. . Ergonomias Los sistemas ergodicos son sistemas en los que todos los estados posibles están presentes en cualquier momento. Por ejemplo, si debido al cambio climático en España algunas partes de Madrid se convierten en desierto, esto es algo que el modelo nunca ha visto antes. Únete a la Orquesta todas las cosas Newsletter Historias sobre cómo la tecnología, los datos, la IA y los medios de comunicación fluyen entre sí y forman nuestras vidas. Análisis, ensayos, entrevistas y noticias. forma de medio a largo, 1-3 veces al mes. Suscríbete aquí 👉 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Únete a la Orquesta todas las cosas Newsletter Historias sobre cómo la tecnología, los datos, la IA y los medios de comunicación fluyen entre sí y forman nuestras vidas. Análisis, ensayos, entrevistas y noticias. forma de medio a largo, 1-3 veces al mes. Suscríbete aquí 🙂 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Multi-modality: Clay and text Multi-modalidad: Título y texto Pero ¿qué pasa con el texto? Sánchez reconoció que poder combinar el poder de los modelos de texto con el poder de los modelos de la Tierra desbloquearía otra gama de posibilidades. Hacer que Clay sea multi-modal le permitiría encontrar relaciones utilizando la similitud semántica textual también. El equipo está trabajando activamente en esto, pero Sánchez observó que los datos de texto presentan desafíos que los datos de la Tierra no presentan, principalmente teniendo que ver con la veracidad. . OpenStreetMaps https://pod.co/orchestrate-all-the-things-podcast-connecting-the-dots-with-george-anadiotis/building-ai-for-earth-with-clay-the-intelligence-platform-transforming-geospatial-data-analysis-featuring-clay-executive-director-bruno-snchez?embedable=true Primero, utilizan Clay para producir una incorporación de una imagen de la Tierra. Luego toman la misma imagen y utilizan la API de OpenStreetMaps para interrogar por etiquetas del mismo territorio. OpenStreetMaps responde con caracterizaciones como un desierto, un río o un parking, y se utiliza un modelo de texto para crear una incorporación de eso. Luego el equipo toma las 2 incorporaciones de esta ubicación – una de Clay y una del modelo de texto – y tratan de averiguar cómo alinearlas.El objetivo es minimizar las pérdidas cuando intenta recrear una de la otra o encontrar similitudes. Las incorporaciones de lino deben ser similares a sus incorporaciones de texto homónimas, ya que codifican la misma cosa incluso si la modalidad es diferente. AI and environmental impact AI y impacto ambiental A pesar de su entusiasmo por los transformadores, Sánchez reconoce que no son perfectos.La principal razón por la que la arquitectura de transformadores fue elegida para Clay fue el hecho de que la industria y la investigación han puesto su peso detrás de ella, por lo que hay muchos recursos y experiencia que se pueden aprovechar. “Si tuviese que elegir desde cero y tuviese el financiamiento para impulsar el movimiento mundial de IA, quizás no habríamos elegido los transformadores, pero esa decisión no está en nuestras manos”, dijo Sánchez. Las principales desventajas de los transformadores que el equipo de Clay tuvo que lidiar con tienen que ver con la cantidad de datos y cálculo que se necesita para entrenar modelos, y su sensibilidad. Se necesitan aún más datos y cálculos para producir modelos ajustados, y los resultados son frágiles y demasiado especializados. El ordenador ha sido un problema El equipo de Clay comenzó con una prueba de concepto antes de la recaudación de fondos para realizar la extensa formación necesaria para producir el modelo. Hasta la fecha, solo se han realizado 2 iteraciones del modelo de Clay, y Sánchez quiere minimizar la cantidad de capacitación necesaria -de ahí el uso de embeddings. Debido a su mandato en Microsoft's Planetary Computer, Sánchez sabe bien cuán extremadamente exigente es la IA en términos de electricidad, agua y otros recursos.La ironía de tratar de aplicar la IA para reducir la degradación ambiental no se pierde en él. La idea, dice, es que Clay está abierto no solo en su rendimiento, sino también en la forma en que el equipo trabaja y el enfoque. de la Tierra de dos maneras. La huella ambiental de AI En primer lugar, al hacer que las personas con objetivos similares se unan, por lo que en lugar de entrenar más modelos, se unen alrededor de Clay. Working with Clay and LGND Trabajando con Clay y LGND Eso es todo bien y bien, pero ¿cuál es realmente la mejor manera para que las personas utilicen Clay? esa es una pregunta abierta. Además de las incorporaciones y los ajustes finos, que requieren experiencia y recursos, y el texto, que es experimental, el equipo de Clay también ha desarrollado una aplicación llamada . Clay explora “Es un mapa.Usted hace clic en lugares, y te permite encontrar cosas.Pero luego nos preguntamos: ¿es un mapa porque merece ser un mapa o porque estoy acostumbrado a los mapas porque estoy en esta industria y quiero un mapa? “Es un mapa.Usted hace clic en lugares, y te permite encontrar cosas.Pero luego nos preguntamos: ¿es un mapa porque merece ser un mapa o porque estoy acostumbrado a los mapas porque estoy en esta industria y quiero un mapa? Estamos pensando que tal vez la manera de maximizar la utilidad de Clay no es ser un mapa. Tal vez también sea una interfaz de chat. Tal vez sea solo una columna en una hoja de cálculo. no lo sabemos”, dijo Sánchez. Estamos pensando que tal vez la manera de maximizar la utilidad de Clay no es ser un mapa. Tal vez también sea una interfaz de chat. Tal vez sea solo una columna en una hoja de cálculo. no lo sabemos”, dijo Sánchez. Sánchez también está explorando formas de prestar servicios y desarrollar productos en torno a Clay a través de , una startup que fundó en 2024.Es los primeros días, pero la compañía ya tiene algunos clientes pagadores y ahora está cerrando una ronda de financiación de semillas. LGND “Lo más importante es que tenemos una idea clara de qué es el servicio, pero al mismo tiempo, estamos sanos en no saber qué es el producto.Porque si lo que estamos hablando aquí es cambiar la industria geoespacial, el pensamiento sobre él [debe] ser completamente diferente. “Lo más importante es que tenemos una idea clara de qué es el servicio, pero al mismo tiempo, estamos sanos en no saber qué es el producto.Porque si lo que estamos hablando aquí es cambiar la industria geoespacial, el pensamiento sobre él [debe] ser completamente diferente. No somos una empresa geoespacial, somos una empresa de respuestas y nuestro mayor riesgo es convertirnos en una empresa geoespacial de la que hay muchos”, señaló Sánchez. No somos una empresa geoespacial, somos una empresa de respuestas y nuestro mayor riesgo es convertirnos en una empresa geoespacial de la que hay muchos”, señaló Sánchez. Going all in ir todos en La apertura es un tema clave para Clay y LGND, ya que Sánchez está abierto tanto a asociaciones como a utilizar modelos distintos de Clay. “Tal vez el valor es que es de código abierto. Tal vez el valor es que está fuera de línea. Estamos apostando que hay algo allí. Tal vez no. Tal vez estamos equivocados y tal vez las incorporaciones no lo son. “Tal vez el valor es que es de código abierto. Tal vez el valor es que está fuera de línea. Estamos apostando que hay algo allí. Tal vez no. Tal vez estamos equivocados y tal vez las incorporaciones no lo son. Pero si lo es, o en la medida en que lo sea, creo firmemente que desbloquearía tanto valor a tantas cuestiones, sociales, económicas, ambientales y también de forma de inversión. Pero si lo es, o en la medida en que lo sea, creo firmemente que desbloquearía tanto valor a tantas cuestiones, sociales, económicas, ambientales y también de forma de inversión. Y preferiría estar equivocado pero haberlo probado, que esperar a ver una tecnología que me dé una garantía del cien por ciento de que funcionará”, es como Sánchez resume la filosofía detrás de Clay. Y preferiría estar equivocado pero haberlo probado, que esperar a ver una tecnología que me dé una garantía del cien por ciento de que funcionará”, es como Sánchez resume la filosofía detrás de Clay. Únete a la Orquesta todas las cosas Newsletter Historias sobre cómo la tecnología, los datos, la IA y los medios de comunicación fluyen entre sí y forman nuestras vidas. Análisis, ensayos, entrevistas y noticias. forma de medio a largo, 1-3 veces al mes. Suscríbete aquí 👉 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Únete a la Orquesta todas las cosas Newsletter Historias sobre cómo la tecnología, los datos, la IA y los medios de comunicación fluyen entre sí y forman nuestras vidas. Análisis, ensayos, entrevistas y noticias. forma de medio a largo, 1-3 veces al mes. Suscríbete aquí 🙂 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/