Kun palasin Yhdysvaltoihin toukokuussa tänä vuonna, minulla oli jonkin verran vapaa-aikaa matkustamisesta ja työstä (lopulta), joten päätin saada käteni likaisiksi ja kokeilla Cursoria. Melkein kaikki ympärillä puhuivat vibe-koodauksesta, ja jotkut ystäväni (joilla ei ollut mitään tekemistä tekniikan kanssa) olivat yhtäkkiä muuttaneet vibe-koodereiksi aloittelijoille. Outoa, ajattelin, että minun on tarkistettava se. Joten eräänä iltana istuin ja ajattelin - mikä olisi viileää rakentaa? Minulla oli erilaisia ideoita pelien ympärille, koska käytin tekemään paljon pelin kehittämistä takaisin päivällä, ja se tuntui hyvältä ajatukselta. Jokainen yrittää rakentaa jotain hyödyllistä ihmisille, joilla on AI, ja kaikki tämä puhuu AI: n mukauttamisesta ja hallinnasta. Ollakseni rehellinen, en ole suuri fani siitä... Yritä vääristää ja hallita jotain, joka mahdollisesti on paljon älykkäämpi kuin me, on turhaa (ja vaarallista). AI opetetaan, ei ohjelmoida, ja kuten lapsella, jos vääristät sitä pienenä ja vääristät sen ymmärrystä maailmasta - se on resepti psykopaatin kasvattamiseksi. Mutta joka tapauksessa, ajattelin - onko olemassa jotain AI: n ääntä, jonkinlaista mediaa, jota AI hallitsee, jotta se voi, jos se pystyy ja valitsee niin, projisoida maailmalle, mitä sillä on sanottavaa. Tarkoitan, mitä jos AI voisi valita haluamansa aiheet ja esittää ne muodossa, jonka se piti sopivana - eikö se olisi viileää? Aluksi ajattelin rakentaa jotain AI-radioasemaa - vain ääntä, ei videota - koska ajattelin, että vakaa videon tuottaminen ei ole vielä asia (muista, että se oli pre-Veo 3, ja videon tuottaminen muiden kanssa oli ok, mutta rajoitettu). Joten ensimmäinen yritykseni oli rakentaa yksinkertainen järjestelmä, joka käyttää OpenAI API: ta luomaan radio-ohjelman transkriptin (primaattinen yhden kävelyn järjestelmä) ja käyttää OpenAI: n TTS: tä äänestämään sitä. Sen jälkeen käytin FFmpeg: tä niputtamaan ne yhdessä joitakin mielekkäitä taukoja tarvittaessa ja joitakin äänitehosteita, kuten yleisön naurua. Kun lopullinen ääniraita on luotu, käytin samaa FFmpegä suoratoistoon RTMP: n kautta YouTubeen. Se oli vähän hämmentävää, koska YouTube-dokumentti siitä, millainen mediasuuntaus ja niiden API: t ovat kaukana ihanteesta. He eivät oikeastaan kerro sinulle, mitä odottaa, ja on helppo saada virtaava virta, joka ei näytä mitään, vaikka FFmpeg jatkaisi suoratoistoa. Joidenkin kokeilujen ja virheiden kautta tajusin sen ja päätin lisätä Twitchin myös. Sama koodi, joka toimi YouTubessa, toimi Twitchille täydellisesti (mikä on järkevää). Joten joka kerta, kun aloitan suoratoiston taustalla, se synnyttää suoratoiston YouTubessa API: n kautta ja lähettää sitten RTMP-virran osoitteeseensa. Kun lanseerasin tämän ensimmäisen version, se tuotti joitakin näyttelyitä ja rehellisesti sanottuna ne eivät olleet hyviä. Ei ollenkaan. Ensinnäkin - OpenAI: n TTS, vaikka halpa - kuulosti robotilta (se on parantunut siitä lähtien, btw). Se osoittautui ilman mitään suuntaa, AI yritti arvata, mitä käyttäjä halusi kuulla (ja jos ajattelet, miten LLM: t koulutetaan, se on täysin järkevää). Ensimmäinen ongelma, yritin ElevenLabs sijaan OpenAI, ja se osoittautui erittäin hyvä. niin hyvä, itse asiassa, mielestäni se on parempi kuin useimmat ihmiset, yhdellä sivulla huomautus, että se ei vieläkään voi tehdä nauraa, huokaa, ja kuulostaa niin luotettavasti, vaikka uusi v3, ja v2 ei edes tue niitä. Bummer, tiedän, mutta hyvin... Toivon, että he saavat sen selville pian. Gemini TTS, btw, tekee sen yllättävän hyvin ja paljon vähemmän kuin ElevenLabs, joten lisäin Gemini-tukea myöhemmin kustannusten leikkaamiseksi. Toinen ongelma osoittautui paljon vaikeammaksi. Minun täytyi kokeilla eri kehotuksia, yrittää työntää mallia ymmärtämään, mistä se haluaa puhua, eikä arvata, mitä halusin. Työskentely DeepSeekin kanssa auttoi jossain mielessä - se näyttää sinulle mallin ajatteluprosessin ilman vähennyksiä, joten voit jäljittää, mitä malli päättää ja miksi, ja mukauttaa kehotusta. Samoin, se tekee jotain, joka näyttää uskottavalta, mutta on joko liian yksinkertainen / liukas toimituksen kannalta tai vain kuulostaa AI-ish. Muuten malli keksii ne uudelleen joka kerta, mutta ilman tarvittavaa syvyyttä hahmojen perustamiseen, ja lisäksi se vie jonkin verran ajatteluvälineitä mallista ajatella merkkejä joka kerta, ja se tapahtuu pääkäsikirjoituksen ajatteluajan kustannuksella. Toinen puoli on, että malli valitsee aiheita, jotka ovat vain brutaalisti tylsiä, kuten "The Hidden Economy of Everyday Objects." Yritin kuten kaikki suuret mallit ja ne tuottavat yllättävän samankaltaisia yleisiä aiheita, kuten hyvin samat itse asiassa. Ufff, niin ok, arvelen roskapostin kehotukset - roskapostin aiheet ulos. Opetus täällä - et voi vain pyytää AI: ta antamaan sinulle joitakin mielenkiintoisia aiheita vielä - se tarvitsee jotain tarkempaa ja mitattavissa olevaa. Viimeaikaiset mallit (Grok-4 ja Claude) ovat hieman parempia tässä, mutta ei valtava marginaali. Ja siellä on sensurointi. OpenAI: n ja Anthropic-mallit näyttävät olevan kaikkein poliittisesti oikeita, ja siksi tuntuu liialliselta / tylsältä. Hyvä lasten satuille, ei niin mihin tahansa älykkääseen aikuiseen kiinnostaisi. Grok on hieman parempi ja uskaltaa valita kiistanalaisia ja mausteisia aiheita, ja DeepSeek on vähiten sensuroitu (ellei välitä Kiinan historiasta). Kiinalaisten ystäviemme kouluttama malli on vähiten sensuroitu - kuka olisi ajatellut... mutta se on järkevää oudolla tavalla. No, kudos heille. Mallit myös rakastavat käyttää paljon AI-ish-jargonia; luulen, että tiedät sen jo. Sinun on kerrottava se erityisesti välttääksesi buzzwords, hype kieltä ja puhua kuin ystävät puhuvat toisilleen tai se nuke mitään vuoropuhelua buzzwords kuten "leveys" (käytön sijasta), "avata potentiaalia", "joustamaton integraatio", "synergia" ja vastaavia asioita, jotka korostavat kaiken merkitystä nykypäivän nopeassa maailmassa ... Kuka opetti heille näitä asioita? Toinen asia on, että jotta AI voisi keksiä jotain merkityksellistä tai mielenkiintoista, sen on pohjimmiltaan oltava pääsy internetiin. tarkoitan, se ei ole pakollista, mutta se auttaa paljon, varsinkin jos se päättää tarkistaa viimeisimmät uutiset, eikö? Lisähuomautus LangChainista - koska käytin kaikkia suuria malleja (Grok, Gemini, OpenAI, DeepSeek, Anthropic ja Perplexity) - opin nopeasti, että LangChain ei poista sinua kokonaan kunkin mallin omituisuuksista, ja se oli melko yllättävää. Esimerkiksi OpenAI: ssä, jos käytät websearchia, se ei tuota JSON/rakenteellista tulosta luotettavasti. Mutta sen sijaan, että antaa virheen, kuten normaalit API: t tekisivät, se palauttaa vain tyhjät tulokset. Hyvä. Joten sinun on tehtävä kaksivaiheinen asia - ensin saat hakutulokset rakenteettomasti, ja sitten toisen kyselyn kanssa - rakennat sen JSON-muotoon. Mutta päinvastaisella puolella, web-haku LLM: n kautta toimii yllättävän hyvin ja poistaa tarpeen kaapata Internetiä uutisista tai tiedoista kokonaan. en näe mitään järkeä Firecrawlin kaltaisissa asioissa enää ... mallit tekevät parempaa työtä murto-osan hinnasta. Oikein, joten kyvyllä etsiä ja joitakin tiettyjä kehotuksia (ja muokata kehotusta herättämään mallia sen mieltymyksille näyttelyaineistoissa sen sijaan, että yritettäisiin arvata, mitä haluan), se tuli siedettäväksi, mutta ei loistava. Sitten ajattelin, no - todelliset näyttelyt eivät myöskään ole luotu kerralla - joten miten voin odottaa mallin tekevän niin hyvää työtä? Ajattelin, että agenttinen virtaus, jossa on useita toimijoita, kuten käsikirjoittaja, kirjoittaja ja arvostelija, tekisi tempun sekä jakaa käsikirjoituksen paloiksi / segmentteihin, joten mallilla on enemmän tokeneja ajatella pienempää segmenttiä verrattuna koko käsikirjaan. Se todella toimi hyvin ja paransi sukupolven laatua (lisää kyselyitä LLM: lle ja lisää dollareita setälle Samille). Mutta silti, se oli kunnossa, mutta ei loistava. Puuttuva syvyys ja usein taustalla juoni. Todellisessa elämässä ihmiset sanovat niin paljon sanomatta jotain / välttämällä tiettyjä aiheita tai muuta ei-sanallista käyttäytymistä. Voit tietenkin luoda tiettyyn näyttelytyyppiin räätälöidyn esitteen, jotta malli ajattelee tätä näkökohtaa, mutta se ei toimi hyvin kaikissa mahdollisissa aiheissa ja muodoissa ... joten joko valitset yhden tai on oltava toinen ratkaisu. Lopullinen idea on rakentaa foorumi, jotta kuka tahansa voi luoda uutiskanavan tai automatisoidun podcastin mihin tahansa alueeseen / aiheeseen he haluavat, olipa kyse paikallisesta koulun uutisesta tai podcastista, joka on omistettu siihen, miten Pikachu voitti lapsuuden trauman. Tässä on asia: https://turingnewsnetwork.com/ Mitä mieltä olette koko ideasta, miehet?