Cuando volví a los EE.UU. en mayo de este año, tuve un poco de tiempo libre de viajar y trabajar (en última instancia), así que decidí ponerme las manos sucias y probar Cursor. Prácticamente todo el mundo estaba hablando de codificación de vibe, y algunos de mis amigos (que no tenían nada que ver con la tecnología) se habían convertido repentinamente a codificadores de vibe para startups. Estraño, pensé, tengo que comprobarlo. Así que una noche me senté y pensé: ¿qué sería cool construir? tenía diferentes ideas en torno a los juegos, ya que solía hacer mucho desarrollo de juegos en el día, y parecía una gran idea. Todo el mundo está tratando de construir algo útil para las personas con IA, y hay todo esto hablando de alineamiento y control de IA. Para ser honesto, no soy un gran fan de eso... Tratar de distorsionar y controlar la mente de algo que potencialmente será mucho más inteligente que nosotros es inútil (y peligroso). la IA se enseña, no se programa, y, como con un niño, si lo abusa cuando es pequeño y distorsiona su comprensión del mundo - esa es la receta para educar a un psicópata. Pero de todos modos, pensé, ¿hay algo como una voz de la IA, algún tipo de medio que es gestionado por la IA para que pueda, si es capaz y elige hacerlo, proyectar al mundo lo que tiene que decir. Quiero decir, ¿y si la IA pudiera elegir cualquier tema que quisiera y presentarlo en un formato que considerara adecuado - ¿no sería cool? Inicialmente, pensé en construir algo como una estación de radio de IA - solo voz, no vídeo - porque pensé que la generación de vídeo estable no era una cosa todavía (recordemos, era pre-Veo 3, y la generación de vídeo con otros era bueno, pero limitado). Así que mi primer intento fue construir un sistema simple que utilizara la API de OpenAI para generar una transcripción de una emisora de radio (un sistema primitivo de un solo paso) y usar TTS de OpenAI para pronunciarlo.Después de eso, usé FFmpeg para ajustarlas junto con algunas pausas significativas donde sea apropiado y algunos efectos de sonido como la risa de la audiencia. Una vez que se generó la pista de audio final, usé el mismo FFmpeg para transmitir a través de RTMP a YouTube. Ese poco fue complicado, ya que la documentación de YouTube en torno a qué tipo de transmisión de medios y sus APIs están lejos del ideal. A través de algunos ensayos y errores, lo descubrí y decidí añadir Twitch también. El mismo código que funcionó para YouTube funcionó perfectamente para Twitch (lo que tiene sentido). Así que, cada vez que inicie un flujo en el backend, generará un flujo en YouTube a través de la API y luego enviará el flujo RTMP a su dirección. Cuando lanzé esta primera versión, produjo algunos shows y, para ser honestos, no eran buenos.No bueno en absoluto. Primero - el TTS de OpenAI, aunque barato - sonó robótico (se ha mejorado desde entonces, btw). Luego hubo la calidad del contenido que produjo.Lo que resultó sin ninguna dirección, la IA trató de adivinar lo que el usuario quería oír (y si piensa en cómo se entrenan los LLM, eso tiene todo el sentido).Pero las adivinaciones eran muy genéricas, simples y aburridas (lo que le dice algo sobre la calidad general del contenido de Internet). Para el primer problema, intenté ElevenLabs en lugar de OpenAI, y resultó ser muy bueno. tan bueno, de hecho, creo que es mejor que la mayoría de los humanos, con una nota lateral de que todavía no puede hacer reír, gritar y sonar así de manera confiable, incluso con el nuevo v3, y v2 ni siquiera los soporta. Gemini TTS, btw, lo hace sorprendentemente bien y por mucho menos que ElevenLabs, así que añadió el apoyo de Gemini más tarde para reducir los costos. El segundo problema resultó ser mucho más difícil. tuve que experimentar con diferentes prompts, tratando de empujar el modelo para entender de qué quiere hablar, y no adivinar lo que quería. Trabajar con DeepSeek ayudó en un sentido - te muestra el proceso de pensamiento del modelo sin reducciones, para que puedas rastrear lo que el modelo está decidiendo y por qué, y adaptar el prompt. Además, ningún modelo en ese momento podía producir scripts de espectáculos de sonido humano. como, hace algo que parece plausible, pero es demasiado simple/shallow en términos de entrega o simplemente suena AI-ish. De lo contrario, el modelo los reinventará cada vez, pero sin la profundidad requerida para basar su personaje, además se quitan algunos recursos de pensamiento del modelo para pensar sobre los personajes cada vez, y eso está sucediendo a expensas del tiempo de pensamiento del guión principal. Otro lado es que el modelo elige temas que son brutalmente aburridos, como "La economía oculta de los objetos cotidianos". He intentado como todos los modelos principales y generan temas genéricos sorprendentemente similares, como el mismo en realidad. Ufff, así que está bien, supongo que los pedidos de basura en - temas de basura. La lección aquí - no se puede pedir a la IA para darle algunos temas interesantes todavía - necesita algo más específico y mensurable. modelos recientes (Grok-4 y Claude) son un poco mejores en esto, pero no por un gran margen. Y hay censura. Los modelos de OpenAI y Anthropic parecen ser los más políticamente correctos, y por lo tanto, se sienten exagerados / aburridos. Bueno para los cuentos de hadas de los niños, no así para cualquier cosa que un adulto inteligente estaría interesado en. Grok es algo mejor y se atreve a elegir temas controvertidos y picantes, y DeepSeek es el menos censurado (a menos que se preocupe por la historia china). Un modelo entrenado por nuestros amigos chinos es el menos censurado - quién lo hubiera pensado... pero tiene sentido de una manera extraña. Bueno, kudos a ellos. También, el Gemini de Google es excelente para el código, pero suena algo no creativo / mecánico en comparación con el resto. Los modelos también les gusta usar un montón de jargón de IA-ish; creo que ya lo saben.Tienes que decirlo específicamente para evitar buzzwords, lenguaje hype, y hablar como amigos hablan entre sí o no habrá ningún diálogo con buzzwords como "leve" (en vez de "usar"), "desbloquear el potencial", "integración sin fin", "sinergia", y cosas similares que subrayan la importancia de cualquier cosa en el mundo acelerado de hoy en día ... ¿Quién les enseñó estas cosas? Otra cosa es, para que la IA venga con algo relevante o interesante, básicamente tiene que tener acceso a Internet. quiero decir, no es obligatorio, pero ayuda mucho, especialmente si decide comprobar las últimas noticias, ¿verdad? Una nota lateral sobre LangChain - ya que usé todos los modelos principales (Grok, Gemini, OpenAI, DeepSeek, Anthropic, y Perplexity) - rápidamente aprendí que LangChain no te abstrae completamente de las curiosidades de cada modelo, y eso era bastante sorprendente. Por ejemplo, en OpenAI, si usas la búsqueda web, no generará la salida JSON/estructurada de manera fiable. Pero en lugar de dar un error como las API normales, simplemente devuelve resultados vacíos. Bueno. Por lo tanto, tienes que hacer una cosa de dos pasos: primero, obtienes los resultados de la búsqueda de una manera no estructurada, y luego con una segunda consulta, lo estructuras en formato JSON. Pero al revés, la búsqueda web a través de los LLMs funciona sorprendentemente bien y elimina la necesidad de rastrear la Internet por noticias o información en su totalidad. Derecho, así que con la capacidad de buscar y algunas promesas más específicas (y modificar la promesa para provocar el modelo para sus preferencias en los temas del show en lugar de tratar de adivinar lo que quiero), se convirtió en tolerable, pero no grande. Entonces pensé, bueno - los shows reales también no se crean de una vez - así que, ¿cómo puedo esperar que un modelo haga un buen trabajo como eso? pensé que un flujo de agentes, donde hay varios agentes como un compositor de guión, escritor y revisor, haría el truco, así como dividir el guión en pedazos / segmentos, por lo que el modelo tiene más tokens para pensar en un segmento más pequeño en comparación con un guión entero. Eso realmente funcionó bien y mejoró la calidad de la generación (a costa de más consultas al LLM y más dólares al tío Sam). Pero aún así, estaba bien, pero no muy bien. Falta de profundidad y a menudo la trama subyacente. En la vida real, la gente dice tanto por no decir algo / evitar ciertos temas, u otro comportamiento no verbal. Incluso las últimas versiones de LLM parecen no ser tan grandes con el subtexto de tales cosas. Puede, por supuesto, elaborar una guía personalizada para un tipo específico de espectáculo para hacer que el modelo piense en ese aspecto, pero no va a funcionar bien en todos los temas y formatos posibles... así que o elige uno o tiene que haber otra solución. La idea final es construir una plataforma para que cualquiera pueda crear un canal de noticias o podcast automatizado para cualquier área / tema que quiera, ya sea que una noticia escolar local o un podcast dedicado a cómo Pikachu superó su trauma de la infancia. Aquí está la cosa: https://turingnewsnetwork.com/ ¿Qué opinas de toda la idea, chicos?