How a rocket scientist turned entrepreneur created the “ChatGPT for Earth data” using transformers and satellite imagery Bruno Sánchez yra raketų mokslininkas su šiek tiek nukrypstančia trajektorija. Astrofizikas pagal mokymą, jis naudojo savo profesijos įrankius – matematiką ir mokslą – kuo platesniu mastu: visata. Sanchezas dirbo Pasaulio banke, kur kaip tarpdisciplininės komandos narys jis padėjo suprasti geospatialius duomenis.Tada jis suprato, kad pagrindinis jo darbas buvo žemėlapiai, o tai paskatino jį pradėti bendrovę, vadinamą Mapbox, teikiančią internetinius žemėlapius internete. Ši patirtis atnešė dar vieną Sánchez supratimą - kad „Mes žinome, kokie medžiai yra pasaulyje, mes žinome, kokie miškai yra pasaulyje. Mes turime daug informacijos apie Žemę. Taigi, kai jam buvo suteikta galimybė pabandyti viską sujungti į tą patį duomenų centrą ir į vieną darbo stalą, jis nusprendė tai padaryti. Sanchezas pažymėjo, kad „T“ ChatGPT – – buvo architektūra, kuri atrodė puikiai tinka tokioms formoms kaip tekstas, vaizdai ir garsas, bet niekas, atrodo, nenaudojo jos žemės duomenims.Taigi jis nusprendė pabandyti.Jis sukūrė komandą, surinko lėšų, sukūrė ne pelno organizaciją ir sukūrė atviro kodo modelį, naudojant atvirus duomenis. Jis gimė transformatorių Clay Clay: the ChatGPT of Earth data? Molis: Žemės duomenų ChatGPT? "Tai neįtikėtina. tai yra greičiau, pigiau ir geriau nei bet kas kitas, kurį mes kada nors matėme, o tai yra tiksliai tas pats, kas atsitiko su tekstu, vaizdais ir garsu.Tai dar kartą įrodo, kad šis "T" iš "ChatGPT", transformatorius, yra nuostabus žmogaus išradimas", - pažymėjo Sánchezas, tikrai entuziastingas dėl Clay. "Tai neįtikėtina. tai yra greičiau, pigiau ir geriau nei bet kas kitas, kurį mes kada nors matėme, o tai yra tiksliai tas pats, kas atsitiko su tekstu, vaizdais ir garsu.Tai dar kartą įrodo, kad šis "T" iš "ChatGPT", transformatorius, yra nuostabus žmogaus išradimas", - pažymėjo Sánchezas, tikrai entuziastingas dėl Clay. Taigi, kas tiksliai yra molis – ką jis daro ir kaip jis veikia? Sánchez pozicionuoja molį abstrakčiu požiūriu kaip architektūrą. Tai procesorius, kuris paima bet kokio tipo Žemės vaizdą (palydovą, lėktuvą ar droną) ir „supranta“, kas yra paveikslėlyje. Nepaisant to, kad Clay buvo ir naudoja transformatorių architektūrą, vadindamas jį Žemės duomenų ChatGPT nebūtų tikslus dėl kelių priežasčių. Įkvėpė ChatGPT Svarbiausias skirtumas yra duomenų tipas, kuriuo buvo apmokytas Clay – vaizdai, o ne tekstas. Molis buvo apmokyti ne tik bet kokio tipo vaizdą, bet labai specifinio tipo vaizdus: aukštos raiškos oro nuotraukos žemės, kurios yra dalis Sánchez pažymėjo, kad tai yra dalis priežasties, kodėl haliucinacijos, viena iš ryškiausių problemų su transformatoriais pagrįstais modeliais, yra daug mažiau problema su Clay. Viešojo domeno duomenų rinkiniai Clay, kaip ir ChatGPT ir jos ilk, remiasi – aukštos dimensijos skaitmeninės duomenų, su kuriais jis susiduria, atstovybės.Bet be duomenų, su kuriais dirba Clay, jo sukurti įterpimai ir jų naudojimo būdas yra skirtingi. Įdėklai Skirtingai nuo savo kolegų, šiuo metu sąveikaujant su Clay nereikalauja teksto sąsajos. Jis net neperima Clay. Vietoj to, Clay komanda skatina žmones naudoti modelį, kad būtų sukurti įterpimai, o tada tiesiogiai dirbti su jais. The power of embeddings Įterpimų galia Kaip paaiškino Sanchezas, „Clay“ sveria Tai reiškia, kad vaizdai ne tik suspaudžiami per jų įterpimo atstovavimus, bet ir pašalinamos vaizdo dalys. Automobilių kaukės Pavyzdžiui, jei paveikslėlyje yra veido dalių, tai tikriausiai reiškia, kad yra ir kitų dalių. Užmaskuoti AutoEncoders naudoja koderius ir dekoderius, ir leidžia Clay Iš pradžių idėja buvo mokyti Clay pagrindinį modelį, o tada subtiliai sureguliuoti dekoderius tik konkrečioms užduotims, pvz., Automobilių skaičiavimui. skalė be žmogaus duomenų ženklinimo Bet tada Clay komanda suprato, kad jie gali sukurti įterpimus, kurie yra visuotinai taikomi. Taigi jie generuoja įterpimus, o tada jie naudoja įterpimus, kad sukurtų dekoderius, praleidžiant koderius. Pagrindinė motyvacija yra ta, kad tai leidžia gauti atsakymus per milisekundes, o ne per savaites. Tai turėtų veikti, kaip Sanchezas: Vektorinės duomenų bazės „Įsivaizduokite, kad turime vartotoją, kuris nori rasti saulės baterijų plokštes Graikijoje, ir mes sukūrėme įdėklus visai Graikijai.Tada tai yra tiesiog milisekundės žinoti; mes neturime tobulo atsakymo, bet turėsime gerą atsakymą apie tai, kur yra saulės baterijos. „Įsivaizduokite, kad turime vartotoją, kuris nori rasti saulės baterijų plokštes Graikijoje, ir mes sukūrėme įdėklus visai Graikijai.Tada tai yra tiesiog milisekundės žinoti; mes neturime tobulo atsakymo, bet turėsime gerą atsakymą apie tai, kur yra saulės baterijos. Tada, jei kas nors kitas ateina ir nori rasti kažką kito, pavyzdžiui, valčių ar statybos, tie patys įterpimai naudojami šiai naujai operacijai.Tai reiškia, kad juos reikia sukurti tik vieną kartą.Tai įterpimų galia.Tai yra universalus išankstinis skaičiavimas, dauguma atsakymų“. Tada, jei kas nors kitas ateina ir nori rasti kažką kito, pavyzdžiui, valčių ar statybos, tie patys įterpimai naudojami šiai naujai operacijai.Tai reiškia, kad juos reikia sukurti tik vieną kartą.Tai įterpimų galia.Tai yra universalus išankstinis skaičiavimas, dauguma atsakymų“. Clay meets Plato Gargždai susitinka su Platonu Įterpimo universalumas yra tema, kuri sukėlė didelį susidomėjimą AI bendruomenėje. , t. y. visuotinė semantinė struktūra, numatyta Platono atstovavimo hipotezės. publikavimas nekontroliuojamo požiūrio, kuris verčia bet kokį įterpimą į ir iš visuotinio latentinio pateikimo Tų Mokslininkų grupė iš Kornelio universiteto pasiūlė stipresnę, konstruktyvesnę šios hipotezės versiją tekstiniams modeliams. Platoninė atstovavimo hipotezė Kalbant apie tikslumą, Sánchez pasidalino kai kuriais empiriniais išvadomis, pažymėdamas, kad komanda pasirinko sutelkti dėmesį į kitas sritis, o ne lyginamuosius rodiklius.Glyno įterpimai, jis pažymėjo, geriausiai veikia, kai objektas, kurį reikia identifikuoti, yra dominuojantis objektas paveikslėlyje.Tikslumas taip pat priklauso nuo objekto dydžio, todėl generuojami skirtingo dydžio įterpimai. Be to, įterpimai turi būti periodiškai regeneruojami, kad atspindėtų Žemės paviršiuje vykstančius pokyčius – tokius dalykus kaip stichinės nelaimės ar statybos darbai. . Ergonomiškumas Ergodinės sistemos yra sistemos, kuriose bet kuriuo metu yra visos galimos valstybės. Pavyzdžiui, jei dėl klimato kaitos Ispanijoje kai kurios Madrido dalys virsta dykuma, tai yra kažkas, ko modelis niekada nematė anksčiau. Prisijunkite prie „Orchestrate all the Things“ naujienlaiškio Istorijos apie tai, kaip technologijos, duomenys, AI ir žiniasklaida teka vienas į kitą ir formuoja mūsų gyvenimą. Analizė, esė, interviu ir naujienos. vidutinio ilgio forma, 1-3 kartus per mėnesį. Užsiregistruokite čia 👉 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Prisijunkite prie „Orchestrate all the Things“ naujienlaiškio Istorijos apie tai, kaip technologijos, duomenys, AI ir žiniasklaida teka vienas į kitą ir formuoja mūsų gyvenimą. Analizė, esė, interviu ir naujienos. vidutinio ilgio forma, 1-3 kartus per mėnesį. Pasirašykite čia 🙂 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Multi-modality: Clay and text Multi-modalumas: molis ir tekstas Bet ką apie tekstą? Sánchez pripažino, kad gebėjimas sujungti tekstinių modelių galią su Žemės modelių galia atvers kitą galimybių spektrą. Komanda aktyviai dirba šioje srityje, tačiau Sánchez pažymėjo, kad tekstiniai duomenys kelia iššūkius, kurių Žemės duomenys neturi, daugiausia susiję su tikrumu. . OpenStreetMaps žemėlapiai https://pod.co/orchestrate-all-the-things-podcast-connecting-the-dots-with-george-anadiotis/building-ai-for-earth-with-clay-the-intelligence-platform-transforming-geospatial-data-analysis-featuring-clay-executive-director-bruno-snchez?embedable=true Pirma, jie naudoja molį, kad sukurtų Žemės vaizdo įterpimą. Tada jie paima tą patį vaizdą ir naudoja „OpenStreetMaps“ API, kad užklausytų tos pačios teritorijos etikečių. „OpenStreetMaps“ reaguoja su apibūdinimais, tokiais kaip dykuma, upė ar automobilių stovėjimo aikštelė, o teksto modelis naudojamas tam, kad sukurtų įterpimą. Tada komanda paima 2 įterpimus šioje vietoje - vieną iš Clay ir vieną iš teksto modelio - ir jie bando išsiaiškinti, kaip juos suderinti. Tikslas yra sumažinti nuostolius, kai bando atkurti vieną iš kito arba rasti panašumą. AI and environmental impact AI ir poveikis aplinkai Nepaisant entuziazmo dėl transformatorių, Sánchez pripažįsta, kad jie nėra tobuli.Pagrindinė priežastis, kodėl transformatorių architektūra buvo pasirinkta Clay, buvo tai, kad pramonė ir moksliniai tyrimai įdėjo savo svorį, todėl yra daug išteklių ir patirties, kurią galima panaudoti. „Jeigu aš turėčiau pasirinkti nuo nulio ir turėčiau finansavimą, kad galėčiau paskatinti pasaulinį AI judėjimą, galbūt mes nebūtume pasirinkę transformatorių, bet šis sprendimas nėra mūsų rankose“, – sakė Sanchezas. Pagrindiniai transformatorių trūkumai, su kuriais susidūrė Clay komanda, susiję su duomenų ir skaičiavimo kiekiu, reikalingu modelių mokymui, ir jų jautrumu. Reikia dar daugiau duomenų ir skaičiavimo, kad būtų pagaminti subtilūs modeliai, o rezultatai yra trapūs ir pernelyg specializuoti. Kompiuteris buvo problema Clay komanda pradėjo su koncepcijos įrodymu prieš lėšų rinkimą, kad galėtų atlikti išsamų mokymą, reikalingą modelio gamybai. Iki šiol buvo tik 2 "Clay" modelio iteracijos, o Sánchez nori sumažinti mokymo kiekį, reikalingą - taigi ir įterpimo naudojimą. Dėl savo kadencijos "Microsoft" Planetary Computer, Sánchez gerai žino, kaip labai reikalauja AI, kalbant apie elektros energiją, vandenį ir kitus išteklius. Ironija bando taikyti AI potencialiai sumažinti aplinkos degradaciją nėra prarasta jam. Idėja, sako jis, yra ta, kad Clay yra atvira ne tik savo gamybai, bet ir komandos darbui bei požiūriui. Žemė dviem būdais. AI aplinkosauginis pėdsakas Pirma, įgalindami žmones, turinčius panašių tikslų, sujungti jėgas, todėl vietoj to, kad mokytų daugiau modelių, jie susivienytų aplink Clay. Working with Clay and LGND Darbas su moliais ir LGND Tai viskas gerai ir gerai, bet kas iš tikrųjų yra geriausias būdas žmonėms naudoti molį?Tai yra atviras klausimas.Be įterpimo ir subtilumo, kuriam reikia patirties ir išteklių, ir teksto, kuris yra eksperimentinis, "Clay" komanda taip pat sukūrė programą, vadinamą . Clay tyrinėja Tai žemėlapis.Jūs spustelite vietas, ir tai leidžia jums rasti daiktus.Bet tada mes klausiame savęs – ar tai žemėlapis, nes jis nusipelno būti žemėlapiu, ar todėl, kad aš esu pripratęs prie žemėlapių, nes esu šioje pramonėje ir noriu žemėlapio? Tai žemėlapis.Jūs spustelite vietas, ir tai leidžia jums rasti daiktus.Bet tada mes klausiame savęs – ar tai žemėlapis, nes jis nusipelno būti žemėlapiu, ar todėl, kad aš esu pripratęs prie žemėlapių, nes esu šioje pramonėje ir noriu žemėlapio? Mes galvojame, kad galbūt būdas maksimaliai padidinti "Clay" naudingumą nėra žemėlapis. Galbūt tai taip pat yra pokalbių sąsaja. Galbūt tai tik stulpelis skaičiuoklėje. Mes nežinome", - sakė Sánchezas. Mes galvojame, kad galbūt būdas maksimaliai padidinti "Clay" naudingumą nėra žemėlapis. Galbūt tai taip pat yra pokalbių sąsaja. Galbūt tai tik stulpelis skaičiuoklėje. Mes nežinome", - sakė Sánchezas. Sánchez taip pat tiria būdus, kaip teikti paslaugas ir kurti produktus aplink Clay per Tai ankstyvosios dienos, tačiau bendrovė jau turi kai kuriuos mokančius klientus ir dabar uždaro finansavimo raundą. LGND „Svarbiausia, kad mes turime aiškią idėją, kas yra paslauga, bet tuo pačiu metu mes esame sveiki nežinodami, kas yra produktas. „Svarbiausia, kad mes turime aiškią idėją, kas yra paslauga, bet tuo pačiu metu mes esame sveiki nežinodami, kas yra produktas. Mes nesame geospatiali kompanija, mes esame atsakymų kompanija, o didžiausia rizika yra tapti geospatiali kompanija, kurios yra daug“, – pažymėjo Sanchezas. Mes nesame geospatiali kompanija, mes esame atsakymų kompanija, o didžiausia rizika yra tapti geospatiali kompanija, kurios yra daug“, – pažymėjo Sanchezas. Going all in Visi įeina į Atvirumas yra pagrindinė tema Clay ir LGND, nes Sánchez yra atvira tiek partnerystėms, tiek naudoti kitus modelius nei Clay. „Galbūt vertė yra tai, kad jis yra atviro kodo. Galbūt vertė yra tai, kad jis yra neprisijungęs. Mes lažinamės, kad ten yra kažkas. Galbūt nėra. Galbūt mes klydome ir galbūt įterpimai nėra. „Galbūt vertė yra tai, kad jis yra atviro kodo. Galbūt vertė yra tai, kad jis yra neprisijungęs. Mes lažinamės, kad ten yra kažkas. Galbūt nėra. Galbūt mes klydome ir galbūt įterpimai nėra. Bet jei tai yra, arba tiek, kiek tai yra, aš tvirtai tikiu, kad tai atvers tiek daug vertės tiek daug klausimų, socialinių, ekonominių, aplinkosaugos, taip pat investicijų požiūriu. Bet jei tai yra, arba tiek, kiek tai yra, aš tvirtai tikiu, kad tai atvers tiek daug vertės tiek daug klausimų, socialinių, ekonominių, aplinkosaugos, taip pat investicijų požiūriu. Ir aš mieliau būčiau neteisus, bet bandęs, nei laukti, kol pamatysiu technologiją, kuri man suteikia šimtu procentų tikrumą, kad ji dirbs", - taip Sánchez apibendrina Clay filosofiją. Ir aš mieliau būčiau neteisus, bet bandęs, nei laukti, kol pamatysiu technologiją, kuri man suteikia šimtu procentų tikrumą, kad ji dirbs", - taip Sánchez apibendrina Clay filosofiją. Prisijunkite prie „Orchestrate all the Things“ naujienlaiškio Istorijos apie tai, kaip technologijos, duomenys, AI ir žiniasklaida teka vienas į kitą ir formuoja mūsų gyvenimą. Analizė, esė, interviu ir naujienos. vidutinio ilgio forma, 1-3 kartus per mėnesį. Užsiregistruokite čia 👉 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/ Prisijunkite prie „Orchestrate all the Things“ naujienlaiškio Istorijos apie tai, kaip technologijos, duomenys, AI ir žiniasklaida teka vienas į kitą ir formuoja mūsų gyvenimą. Analizė, esė, interviu ir naujienos. vidutinio ilgio forma, 1-3 kartus per mėnesį. Pasirašykite čia 🙂 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/