Mi nombre es Sam, tengo un antecedente en IA / robótica del MIT, vendí mi primera startup de IA en 2021, y mi ambiciosa segunda startup de IA es , de financiado por una herramienta de navegador gratuita que lanzé hace años y olvidé hasta ahora. Escrubirlo doing okay Escrubirlo Hacer bien Déjame que lo explique. Cómo me he metido en esto Cuando terminé la escuela secundaria ~2012 realmente quería ir al software, pero no pude conseguir un trabajo en la tecnología porque nadie se preocupaba por la IA en ese momento (esto era hace 2 ciclos de hip-hop) lo que parece ridículo en retrospectiva, pero en ese momento la gente estaba obsesionada con las aplicaciones móviles, y todas las entrevistas que tuve, la gente preguntó si podía desarrollar aplicaciones y yo no podía. En lugar de buscar empleos, lancé mi primera startup, una Fue mi primer avance en las startups, y por supuesto la primera idea no funcionó, y hice todo mal (construir antes de hablar con los usuarios, recaudar dinero y construir un equipo antes de que el mercado de productos se ajuste), pero a lo largo de varios años dolorosos aprendí a lanzar y hablar con los clientes. Aplicaciones de e-learning Reducimos el tamaño para mantener las cosas delgadas (sí, eso no fue genial) y giramos 10 veces durante 5 años, antes de llegar finalmente a una idea exitosa: construimos un SDK con características de IA (fundamentos virtuales, eliminación de ruido de fondo) para aplicaciones de videoconferencia durante la pandemia. acquired by a customer. Abajo el agujero de conejo con filtros AI Ahora sé lo que piensas: Getting acquired for AI Filters? Really? - You, maybe (possibly?) ¿Puedes comprar filtros de IA? - ¿Tú, quizás (posiblemente?) Quizás no lo estés pensando, pero por el bien de la narración, voy a asumir que tú, querido lector, estás rodando tus ojos, como una excusa para explicar algunos detalles técnicos algo interesantes y arcanos. Al construir aplicaciones de videoconferencia (especialmente WebRTC), uno de los mayores desafíos técnicos fue gestionar la CPU de los usuarios, porque para una llamada de vídeo con 20 participantes, el dispositivo de un usuario está codificando una transmisión de vídeo y decodificando 20 otras transmisiones de vídeo en paralelo, y cuando los usuarios se unen a los netbooks de 200 dólares que compraron hace 10 años, su aplicación de llamadas de vídeo podría derretir su ordenador, lo que no es bueno para la retención. La mayoría de las soluciones para los filtros de IA como Virtual Backgrounds requerían el uso de bibliotecas como TensorflowJS o Mediapipe de Google, ambas de las cuales esencialmente portaban tiempos de ejecución de servidores ML (como Pytorch, Tensorflow) al navegador, pero esto llevó a toneladas de ineficiencia (especificamente la comunicación de CPU a GPU) que llevó a un uso de CPU muy alto. Dado que Zoom y Google Meet tenían fondos virtuales, se espera que todas las otras aplicaciones webrtc las tengan también, pero las cosas de código abierto son super ineficientes, y usarlas llevaría a un pico en MMN (netbooks derretidos mensualmente). Para una de nuestras ideas de arranque fallidas aprendí el procesamiento gráfico a través de WebGL, y nos preguntamos, ¿por qué no escribir redes neuronales en el navegador WebGL? No está utilizando un tiempo de ejecución como TensorflowJS, básicamente construimos nuestro propio tiempo de ejecución mucho más rápido escribiendo a mano redes neuronales en shaders de gráficos, y entrenando y optimizando redes neuronales para correr lo más rápido posible dado las restricciones de los shaders de WebGL en netbooks. So while Google was busy porting server AI runtimes to the browser, making web developers adapt to what Google AI researchers were comfortable with, we did AI research to adapt AI models to work in a native web environment, and the results spoke for themselves. Así que teníamos clientes (y ofertas de adquisición) porque demostramos que nuestras cosas eran 10 veces mejores que las cosas de código abierto (y lo que Google Meet tenía). Pero nunca lo abrieron. Más tarde copió silenciosamente el El proyecto lateral Después de la adquisición, nuestro equipo de 5 se convirtió esencialmente en el “equipo de IA” para una empresa de 2000 personas con 5 productos.De 2021 a 2024, estábamos ocupados integrando nuestros filtros de IA existentes en los productos de los adquirentes y construyendo nuevos (especialmente después de la ola de ChatGPT en 2022), y me fui de CEO a gerente de producto. En 2023, WebGPU (el sucesor de WebGL) salió y decidí practicar la escritura de Redes Neurales en WebGPU (la pandemia estaba acabada, pero pensé que todavía era un conjunto de habilidades útiles pero muy de nicho). AI Upscaling acaba de pasar a ser la tarea de IA más simple posible para escribir una Red Neural para (esto es solo un filtro de agudización inteligente). para subir vídeos en el navegador. Typescript SDK import WebSR from '@websr/websr'; const gpu = await WebSR.initWebGPU(); if(!gpu) return console.log("Browser/device doesn't support WebGPU"); const websr = new WebSR({ source: // An HTML Video Element network_name: "anime4k/cnn-2x-s", weights: await (await fetch('./cnn-2x-s.json')).json() //found in weights/anime4k folder gpu, canvas: //A canvas, with 2x the width and height of your input video }); await websr.start(); // Play the video Literalmente como una demostración para el SDK, para mostrar un ejemplo real de cómo usarlo, construí una herramienta de utilidad rápida para escalar vídeos en el navegador. lo llamé “Free AI Video Upscaler”, registrado Lo publicó en Reddit y lo olvidó. Página oficial.upscaler.video El “proyecto real” Como jefe de IA para una startup de 2000 personas con múltiples productos, cuando comenzó el boom de la IA de la Generación 2023 fui inundado con solicitudes de características de diferentes equipos de productos. Terminamos priorizando las funciones de edición de IA para Streamyard (herramienta de transmisión en vivo).Después de ver lo que estaban haciendo los competidores, me sorprendió ver una ola de "startups de edición de IA" que se enfocaron en la transcripción de un vídeo y animaron a ChatGPT a hacer sugerencias de edición. Después de pasar años en “Real AI”, pensé que podrías construir una AI mucho mejor, personalizada que pueda entender, información de audio, visual y transcripción, que podría procesar y editar vídeo 10 veces mejor, más rápido y más barato que todo el mundo estaba haciendo. Construí un PoC y funcionó totalmente, pero antes de que podamos realmente construirlo en el producto, la compañía fue abruptamente vendida a una empresa de PE, y todos o renunciaron o fueron despedidos. Así que empecé mi segunda startup ( ) con la idea de construir un modelo de fundación para la edición de vídeo, que podría editar contenido de formato largo de forma rápida, barata y fiable, así como editor de vídeo moderadamente calificado, y eligió empezar con podcasts (muchos podcasts usaron Streamyard). Katana Aprendiendo de los errores de mi primera startup, decidí empezar por mí mismo, y averiguar qué iba a funcionar antes de intentar escalar, lo que significa que soy super rentable, pero moviéndose más lentamente de lo que seguramente podría tener con un equipo. Lo lanzé en julio de 2025, y no va terriblemente, se ha tomado meses de I+D y características de construcción, desgaste y conversación con los usuarios, para construir una suite de edición de vídeo de IA completa, alimentada por una docena de modelos de IA personalizados, auto-entrenados, pero a través de varios lanzamientos e iteraciones Se ha llegado a varias docenas de usuarios que lo usan, así como a unos ~10 clientes, todos sin marketing (todos los usuarios y clientes hasta ahora han venido de la búsqueda orgánica). El éxito a pesar de mis peores esfuerzos Mientras estaba esclavizando en mi herramienta de edición de IA, no me di cuenta de que mi demo de lanzamiento de ascensores había crecido en silencio en un 15% Mes a Mes completamente orgánico. Nunca comprobé los números, pero la única manera en la que sabía que la gente estaba usando mi app era porque los usuarios me enviaban mensajes en reddit sobre los errores, y los usuarios regulares se inscribían en github y abrían problemas en el repo de github. Como, tengo una startup, una familia y ya estaba empujando a intentar construir, hacer investigación de IA para, deshabilitar y comercializar una aplicación de edición de vídeo de IA como fundador solo. no tenía realmente la paciencia para deshabilitar problemas de procesamiento de vídeo para una herramienta que nadie me estaba pagando para mantener, para que algunos usuarios aleatorios pudieran subir los vídeos generados por IA y las películas torrenting de forma gratuita. Fue sólo después de recibir 15 mensajes consecutivos en una semana en mayo de 2025 sobre la aplicación que ya no funciona (cuando una actualización de Chrome rompió el tubo de procesamiento de vídeo) que decidí pasar un fin de semana debugando y arreglando el problema, cuando luego me conecté a Google Analytics por primera vez en un año vi que the traffic had grown 10x, by itself, to 30k Monthly Users, despite the bugs. Given this random free tool had 100x the traffic for my actual startup’s main product, I decided to take it seriously, first and foremost by fixing the bugs “Nadie pagaría por eso” Un amigo mío sugirió construir una versión pagada con modelos de IA más grandes ejecutados en el servidor, y pensé que era una idea estúpida porque estaba bastante seguro de que nadie iría a paid.upscaler.video, pero también pensé, al menos vale la pena probar una página de destino, así que vibe codificó una página de destino en 2 horas, sacó un modelo de precios ($ 5 / hora de vídeo) de mi ***, y luego puso una oferta diciendo "$ 1 por $ 20 en créditos", y puse un enlace a esto en la página principal de la herramienta de escala libre. En un mes 103 personas me pagaron $ 1, lo que era aproximadamente 4 veces más de lo que esperaba, así que decidí tomar esto en serio. He construido una versión paga fuera de la obligación Sólo porque puse en la página “Este servicio se lanzará antes del 1 de octubre o obtendrás tu depósito de vuelta” que tuve alguna presión para que realmente lo construyera. Tienes que entender que con la mayoría de las herramientas de escalado son sólo envases para modelos de código abierto desarrollados por AI Resesearch (como RealESRGAN). un desarrollador normal miraría un modelo de código abierto, trabajaría el coste de ejecutarlo en hardware de GPU y derivaría una estructura de precios de los costes de procesamiento. Escogí $ 5 / hora completamente arbitrariamente (se sintió bien), y hice R & D personalizado para llegar a modelos de IA que se ajustan al precio que escogí y estaba obligado a honrar debido al depósito de $ 1. Aquí es donde se necesitaba experiencia real de IA - ninguna de las cosas de código abierto o la investigación académica estaba cerca de ser lo suficientemente potente como para hacer que ese punto de precio funcionara, pero tuve suficientes antecedentes con la zona para construir algo personalizado para casos y personas de uso específicos: Marketing con videos generados por IA Amantes torrenting películas de forma larga Editores de vídeo que buscan aumentar la resolución de 1080p a 4K Los jugadores intentan elevar las grabaciones de pantalla a 4K Requería alrededor de 6 semanas de I+D (pensé que no todo era “tiempo activo”, establecí una carrera de entrenamiento y regresé 2 días después para ver los resultados).Con más de 100 entrenamientos y $ 5k+ en costes de entrenamiento de servidores, sin embargo, tomó algún esfuerzo, pero terminé los modelos a finales de septiembre. Luego vibe codificó el resto de la aplicación (frontend + backend) durante un fin de semana, lanzado el 30 de septiembre, y envió los correos electrónicos con créditos de $ 20 a los suscriptores de acceso temprano el último día posible antes de que estuviera obligado a proporcionar un reembolso. Volver a la versión gratuita Usando lo que aprendí del sprint de I+D, entrené un conjunto completo de nuevos modelos de IA mucho mejores para la aplicación gratuita también, y obtuve ayuda de los LLM para mejorar la interfaz de usuario, hacerla móvil, mejorar metadatos básicos como <title> y <description>, junto con una sección de FAQ. Estos cambios muy menores duplicaron el uso en la versión gratuita en 1 mes, llegando a alrededor de 2.3k usuarios por día para noviembre. No lo comercializé en ninguna parte, no traté de hacer que nadie utilice esta herramienta, y sin embargo solo fijé los conceptos básicos (fixar errores, mejorar los metadatos) y vi un crecimiento que sólo podía soñar con mi producto principal Katana. Rentabilidad no intencionada Después de poner el enlace a la versión paga de nuevo en la página principal de la versión gratuita, de repente tuve cientos de personas que vienen a la versión paga todos los días, con alrededor del 50% de suscripción y el 8% de conversión. Month Revenue September $0 October $1400 November $2800 Septiembre 0 dólares Octubre 1400 dólares noviembre 2800 dólares Bueno, no es tanto, pero (1) tengo costos lo suficientemente bajos que estoy a punto de ser rentable, y (2) esto fue sin ningún marketing. no traté de conseguir que nadie utilice mi software, simplemente lanzé un producto, la gente apareció, pagó por él y lo usó. Estaba completamente jugando para entrar en el modo de ventas fundador para Katana, enviando correos electrónicos fríos y haciendo cosas que no se escalan, y sin embargo, de alguna manera la página de demostración para un SDK de código abierto abandonado que construí como un proyecto de aprendizaje alcanzó el mercado de productos de una manera que sólo podía soñar con Katana, y que no había visto desde que mi primera startup lanzó el SDK de filtros de IA que nos hizo adquirir. Soy rentable sin ningún marketing, y eso sólo rompe mi cerebro y todas las concepciones que tuve sobre las startups y el emprendimiento. ¿Qué hago ahora? Esta herramienta de escalada nunca será una gran empresa, no es lo que me planteé hacer, pero como, el crecimiento orgánico y los ingresos de ella parecen demasiado difíciles de ignorar. Como fundador técnico, quiero trabajar en proyectos ambiciosos y técnicamente difíciles, y una herramienta de ampliación de vídeo no es eso, pero tengo suficiente sentido del producto para reconocer y priorizar las victorias rápidas. En ambos casos, he aprendido esto: Entradas ≠ Salidas Algunos proyectos se sienten como rodando un boulder hacia arriba, y algunos simplemente rodando hacia abajo. Los proyectos gratis y de código abierto pueden generar ingresos totalmente Voy a trabajar en esta cosa más elevada un poco más, parece irresponsable no hacerlo, pero esta experiencia me ha llevado a reevaluar lo que quiero hacer con Katana. Tengo algunos otros proyectos altamente técnicos / de código abierto que he querido explorar (una técnica para mejorar enormemente la precisión y la velocidad de los modelos de transcripción, un SDK de filtros de IA de código abierto con WebGPU), de lo contrario habría llamado esas ideas distracciones o irresponsables, pero tal vez sea el proyecto de lado aleatorio que termina siendo lo que funciona. ¡Gracias por leer! Aquí tenéis un enlace a la herramienta Upscaling: https://free.upscaler.video Aquí está el código fuente: https://github.com/sb2702/free-ai-video-upscaler El SDK de código abierto: https://github.com/sb2702/websr/ Y creo que puedes encontrar mis socios en la biografía del autor. Thanks so much for reading!