Cando volvín aos Estados Unidos en maio deste ano, tiven algún tempo libre de viaxar e traballar (finalmente), así que decidín poñer as mans sucias e probar Cursor. Estraño, pensei eu, teño que comprobalo. Entón, unha noite sentou e pensei - o que sería cool para construír? eu tiña diferentes ideas en torno a xogos, como eu adoitaba facer unha morea de desenvolvemento de xogos de volta no día, e parecía unha gran idea. Todo o mundo está intentando construír algo útil para as persoas con IA, e hai todo isto falando de aliñar e controlar a IA. Para ser honesto, non son un gran fan diso... Tratar de distorsionar e controlar a mente de algo que potencialmente será moito máis intelixente que nós é inútil (e perigoso). A IA é ensinada, non programada, e, como un neno, se o abusa cando pequeno e distorsiona a súa comprensión do mundo - esa é a receita para criar un psicópata. Pero de todos os xeitos, pensei - hai algo como unha voz de IA, algunha clase de medios que son xestionados por IA para que poida, se é capaz e decide facelo, proxectar ao mundo o que ten que dicir. Quero dicir, que pasaría se a IA puidese escoller calquera tema que quixese e presentalo nun formato que considerase axeitado -non sería cool?As cousas resultaron non ser tan simples co que a IA realmente quería transmitir ... pero non imos ir adiante. Inicialmente, pensei en construír algo como unha estación de radio de IA - só voz, non vídeo - porque pensei que a xeración de vídeo estable aínda non era unha cousa (lembre, era pre-Veo 3, e a xeración de vídeo con outros estaba ben pero limitada). Entón, o meu primeiro intento foi construír un sistema sinxelo que usa a API OpenAI para xerar unha transcrición do programa de radio (un sistema primitivo dun só paso) e usar o TTS de OpenAI para pronuncialo. Despois diso, usei o FFmpeg para pegar aqueles xunto con algunhas pausas significativas onde sexa necesario e algúns efectos de son como a risa do público. Unha vez que se xerou a pista de audio final, usei o mesmo FFmpeg para transmitir a través de RTMP a YouTube. Aquel pouco foi clunky, como a documentación de YouTube sobre que tipo de transmisión de medios e as súas APIs están lonxe do ideal. A través de algúns intentos e erros, descubrín e decidín engadir Twitch tamén. O mesmo código que funcionou para YouTube funcionou perfectamente para Twitch (o que ten sentido). Entón, cada vez que inicie unha transmisión no backend, engadirá unha transmisión en YouTube a través da API e, a continuación, enviará a transmisión RTMP ao seu enderezo. Cando lancei esta primeira versión, produciu algúns shows e, para ser honesto, non eran bos. Non bo en absoluto. Primeiro - o TTS de OpenAI, aínda que barato - soou robótico (mellorou desde entón, btw). Resultou sen ningunha dirección, a IA intentou adiviñar o que o usuario quería oír (e se pensas en como se adestran os LLM, iso ten todo o sentido). Para o primeiro problema, probei ElevenLabs en vez de OpenAI, e resultou ser moi bo. tan bo, de feito, creo que é mellor que a maioría dos humanos, cunha nota lateral de que aínda non pode facer risas, gritos e sons así de forma fiable, mesmo con novos v3, e v2 nin sequera os soporta. Gemini TTS, btw, fai iso sorprendentemente ben e por moito menos que ElevenLabs, polo que engadín apoio a Gemini máis tarde para reducir os custos. O segundo problema resultou ser moito máis difícil. tiven que experimentar con diferentes prompts, intentando empuxar o modelo para entender o que quere falar, e non adiviñar o que quería. Traballar con DeepSeek axudou nun sentido - móstralle o proceso de pensamento do modelo sen reducións, para que poida rastrexar o que o modelo está a decidir e por que, e adaptar o prompt. Ademais, ningún modelo na época podería producir guións de espectáculos de son humano. como, fai algo que parece plausible, pero é demasiado sinxelo en termos de entrega ou só soa AI-ish. Se non, o modelo reinventaraos cada vez, pero sen a profundidade necesaria para basear o seu personaxe, ademais leva algúns recursos de pensamento do modelo para pensar sobre os personaxes cada vez, e iso está a suceder a expensas do tempo de pensamento do guión principal. Outro lado é que o modelo elixe temas que son brutalmente aburridos, como "A economía oculta de obxectos cotiáns". Probei como todos os modelos principais e xeran temas xenéricos sorprendentemente similares, como o mesmo en realidade. Ufff, así que está ben, supoño que o lixo prompts en - temas de lixo fóra. A lección aquí - non pode simplemente pedir AI para darlle algúns temas interesantes aínda - necesita algo máis específico e medible. modelos recentes (Grok-4 e Claude) son un pouco mellores neste, pero non por unha gran marxe. E hai censura. Os modelos de OpenAI e Antropic parecen ser os máis politicamente correctos, e polo tanto, senten-se exagerados / aburridos. Bo para contos de fadas dos nenos, non así para calquera cousa que un adulto intelixente estaría interesado. Grok é un pouco mellor e se atreve a escoller temas controvertidos e picantes, e DeepSeek é o menos censurado (a menos que se preocupe coa historia chinesa). Un modelo adestrado polos nosos amigos chineses é o menos censurado - quen tería pensado ... pero ten sentido dun xeito estraño. Ben, kudos para eles. Os modelos tamén queren usar unha morea de jargón de IA-ish; creo que xa o sabes. tes que dicilo especificamente para evitar buzzwords, linguaxe hype, e falar como amigos falan uns cos outros ou vai nuke calquera diálogo con buzzwords como "leve" (en vez de "uso"), "desbloquear o potencial", "integración sinxela", "sinergia", e cousas semellantes que subliñan a importancia de calquera cousa no mundo acelerado de hoxe ... quen lles ensinou estas cousas? Outra cousa é, para que a IA chegue a algo relevante ou interesante, basicamente ten que ter acceso a internet. Quero dicir, non é obrigatorio, pero axuda moito, especialmente se decide comprobar as últimas noticias, non? Unha nota lateral sobre LangChain - xa que usei todos os modelos principais (Grok, Gemini, OpenAI, DeepSeek, Anthropic e Perplexity) - Aprendín rapidamente que LangChain non abstrae completamente das curiosidades de cada modelo, e iso foi bastante sorprendente. Por exemplo, en OpenAI, se usa a busca web, non xerará JSON / saída estruturada de forma fiable. Pero en vez de dar un erro como as APIs normais, só devolve resultados baleiros. Bo. Entón, ten que facer unha cousa de dous pasos - primeiro, obtés os resultados da busca dun xeito non estruturado, e despois cunha segunda consulta - estrutúralo en formato JSON. Pero no flipside, a busca web a través de LLMs funciona sorprendentemente ben e elimina a necesidade de rastrexar a Internet para noticias ou información en xeral. Dereito, así que coa capacidade de buscar e algúns prompts máis específicos (e modificando o prompto para provocar o modelo para as súas preferencias nos temas do show en vez de tentar adiviñar o que quero), fíxose tolerable, pero non grande. Entón pensei, ben - os espectáculos reais tamén non se crean dunha vez - entón, como podo esperar que un modelo faga un bo traballo así? pensei que un fluxo axente, onde hai varios axentes como un compositor de guión, escritor e revisor, faría o truco, así como dividir o guión en anacos / segmentos, polo que o modelo ten máis tokens para pensar nun segmento máis pequeno en comparación cun guión enteiro. Iso funcionou moi ben e mellorou a calidade da xeración (ao custo de máis consultas ao LLM e máis dólares ao tío Sam). Pero aínda así, estaba ben, pero non grande. Falta de profundidade e moitas veces a trama subxacente. Na vida real, a xente di tanto non dicindo algo / evitando certos temas, ou outro comportamento non verbal. Mesmo as últimas versións do LLM parecen non ser tan grandes co subtexto de tales cousas. Pode, por suposto, elaborar unha guía adaptada a un tipo específico de espectáculo para facer que o modelo pense sobre ese aspecto, pero non vai funcionar ben en todos os temas e formatos posibles ... así que ou elixe un ou ten que haber outra solución. A idea final é construír unha plataforma para que calquera poida crear unha canle de noticias ou podcast automatizado para calquera área / tema que queira, sexa unha noticia escolar local ou un podcast dedicado a como Pikachu superou o trauma da súa infancia. Aquí está a cousa: https://turingnewsnetwork.com/ De todos os xeitos, que opinas da idea, rapaces?