Je m'appelle Sam, j'ai une expérience en AI / robotique du MIT, j'ai vendu ma première startup AI en 2021, et ma deuxième startup AI audacieuse est , à financé par un outil de navigateur gratuit que j'ai lancé il y a des années et que j'ai oublié jusqu'à présent. Le Crushing Faire OK Le Crushing Faire OK Laisse moi expliquer. Comment je suis entré dans ce Quand j'ai terminé l'école primaire ~2012 je voulais vraiment aller dans le logiciel, mais je ne pouvais pas obtenir un emploi dans la technologie parce que personne ne se souciait de l'IA à l'époque (c'était 2 cycles de hype il y a) qui semble ridicule en arrière-plan mais à l'époque, les gens étaient obsédés par les applications mobiles, et toutes les interviews que j'avais, les gens me demandaient si je pouvais développer des applications et je ne pouvais pas. Au lieu de chercher des emplois, j'ai lancé ma première startup, une C’était ma première aventure dans les startups, et bien sûr, la première idée n’a pas fonctionné, et j’ai tout fait mal (construire avant de parler aux utilisateurs, récolter de l’argent et construire une équipe avant de s’adapter au marché du produit), mais au cours de plusieurs années douloureuses, j’ai appris à lancer et à parler aux clients. L’application e-learning Nous avons réduit la taille pour garder les choses minces (oui, ce n'était pas génial), et nous avons tourné 10 fois sur 5 ans, avant d'arriver finalement à une idée réussie - nous avons construit un SDK avec des fonctionnalités d'IA (photos d'arrière-plan virtuels, suppression du bruit de fond) pour les applications de vidéoconférence pendant la pandémie. acquis par un client. Descendre le trou de lapin avec les filtres AI Maintenant je sais ce que tu penses : Acheter des filtres d'IA ? vraiment ? - Vous, peut-être (possiblement?) Acheter des filtres d'IA ? vraiment ? - Vous, peut-être (possiblement?) Peut-être que vous ne pensez pas cela, mais pour le bien de la narration, je vais supposer que vous, cher lecteur, vous roulez les yeux, comme une excuse pour expliquer quelques détails techniques quelque peu intéressants et arcane. Lors de la construction d'applications de vidéoconférence (en particulier WebRTC), l'un des plus grands défis techniques était de gérer la CPU des utilisateurs, car pour un appel vidéo avec 20 participants, le dispositif d'un utilisateur encode un flux vidéo et décode 20 autres flux vidéo en parallèle, et lorsque les utilisateurs se joignent à des netbooks de 200 $ qu'ils ont achetés il y a 10 ans, votre application d'appel vidéo pourrait fondre leur ordinateur, ce qui n'est pas génial pour la conservation. La plupart des solutions pour les filtres d'IA tels que Virtual Backgrounds nécessitent l'utilisation de bibliothèques telles que TensorflowJS ou Mediapipe de Google, qui portent essentiellement les temps d'exécution du serveur ML (comme Pytorch, Tensorflow) vers le navigateur, mais cela a entraîné des tonnes d'inefficacité (en particulier la communication CPU à GPU) qui a conduit à une utilisation de la CPU très élevée. Puisque Zoom et Google meet avaient des fonds virtuels, toutes les autres applications webrtc devraient en avoir aussi, mais les choses open source sont super inefficaces, et leur utilisation entraînerait une hausse des MMN (netbooks mensuels fondus). Pour l'une de nos idées de démarrage ratées, j'ai appris le traitement graphique via WebGL, et nous nous sommes demandés, pourquoi ne pas écrire des réseaux neuronaux dans le navigateur WebGL?Il ne s'agit pas d'utiliser un temps d'exécution comme TensorflowJS, nous avons essentiellement construit notre propre temps d'exécution beaucoup plus rapide en écrivant à la main des réseaux neuronaux dans les shaders graphiques, et en formant et en optimisant les réseaux neuronaux pour fonctionner le plus rapidement possible compte tenu des contraintes des shaders WebGL sur les netbooks. Alors que Google était occupé à transférer les temps d'exécution de l'IA du serveur vers le navigateur, ce qui a permis aux développeurs Web de s'adapter à ce que les chercheurs de l'IA de Google étaient à l'aise avec, nous avons fait des recherches sur l'IA pour adapter les modèles d'IA à fonctionner dans un environnement Web natif, et les résultats ont parlé d'eux-mêmes. Donc, nous avons eu des clients (et des offres d'acquisition) parce que nous avons prouvé que notre contenu était 10 fois meilleur que le contenu open source (et ce que Google Meet avait). Mais ils ne l’ont jamais ouvert. Plus tard, il copie la méthode Le projet du côté Après notre acquisition, notre équipe de 5 personnes est essentiellement devenue l’« équipe d’IA » pour une entreprise de 2000 personnes avec 5 produits.De 2021 à 2024, nous étions occupés à intégrer nos filtres d’IA existants dans les produits des acquéreurs et à en construire de nouveaux (surtout après la vague de ChatGPT en 2022), et je suis passé du PDG au responsable du produit. En 2023, WebGPU (le successeur de WebGL) est sorti, j'ai décidé de pratiquer l'écriture de réseaux neuronaux dans WebGPU (la pandémie était terminée, mais je pensais que c'était toujours un savoir-faire utile mais très niche). AI Upscaling est juste arrivé à être la tâche d'IA la plus simple possible pour écrire un réseau neuronal (c'est juste un filtre d'affinage intelligent). Télécharger des vidéos dans le navigateur. Type de fichier SDK import WebSR from '@websr/websr'; const gpu = await WebSR.initWebGPU(); if(!gpu) return console.log("Browser/device doesn't support WebGPU"); const websr = new WebSR({ source: // An HTML Video Element network_name: "anime4k/cnn-2x-s", weights: await (await fetch('./cnn-2x-s.json')).json() //found in weights/anime4k folder gpu, canvas: //A canvas, with 2x the width and height of your input video }); await websr.start(); // Play the video Littéralement comme une démonstration pour le SDK, pour montrer un véritable exemple de travail sur la façon de l'utiliser, j'ai construit un outil d'utilité rapide pour évoluer les vidéos dans le navigateur. Je l'ai posté sur Reddit et j'en ai oublié. Télécharger upscaler.video Le « vrai projet » En tant que responsable de l'IA pour une start-up de 2000 personnes avec plusieurs produits, alors que le boom de l'IA de la génération 2023 a démarré, j'ai été inondé de demandes de fonctionnalités de différentes équipes de produits. Nous avons fini par donner la priorité aux fonctionnalités d'édition d'IA pour Streamyard (outil de streaming en direct). Après avoir regardé ce que les concurrents faisaient, j'ai été flabbergasted de voir une vague de "startups d'édition d'IA" qui se sont réduites à la transcription d'une vidéo et ont incité ChatGPT pour des suggestions d'édition. Après avoir passé des années dans « Real AI », j’ai pensé que vous pourriez construire beaucoup mieux, l’IA personnalisée qui pourrait comprendre, l’audio, l’information visuelle et la transcription, qui pourrait traiter et éditer des vidéos 10x mieux, plus vite et moins cher que tout le monde. J'ai construit un PoC et cela a complètement fonctionné, mais avant que nous ne puissions vraiment le mettre dans le produit, l'entreprise a soudainement été vendue à une entreprise de PE, et tout le monde a démissionné ou a été licencié. J'ai donc lancé ma deuxième startup ( ) avec l'idée de construire un modèle de base pour l'édition vidéo, qui pourrait éditer du contenu de longue forme rapidement, pas cher et de manière fiable ainsi que des éditeurs de vidéo modérément qualifiés, et a choisi de commencer avec des podcasts (beaucoup de podcasts utilisaient Streamyard). Katana Apprenant des erreurs de mon premier démarrage, j’ai choisi de commencer par moi-même et de comprendre ce qui allait fonctionner avant d’essayer d’évoluer, ce qui signifie que je suis super rentable, mais que je me déplaçais plus lentement qu’avec une équipe. Je l'ai lancé en juillet 2025, et cela ne va pas terriblement, il a fallu des mois de R&D et de fonctionnalités de construction, de débogage et de conversation avec les utilisateurs, pour construire une suite d'édition vidéo d'IA pleinement opérationnelle, alimentée par une douzaine de modèles d'IA personnalisés, auto-entraînés, mais à travers plusieurs lancements et itérations Il a atteint plusieurs douzaines d'utilisateurs qui l'utilisent, ainsi que environ 10 clients, tous sans marketing (tous les utilisateurs et les clients jusqu'à présent sont venus de la recherche organique). Succès malgré mes pires efforts Alors que je travaillais sur mon outil d'édition d'IA, je ne me suis pas rendu compte que ma démonstration d'amplificateur avait progressé en silence à 15% mois après mois entièrement organiquement. Je n'ai jamais vérifié les numéros, cependant, la seule façon dont je savais que les gens utilisaient mon application était parce que les utilisateurs m'envoyaient des messages sur reddit sur les bugs, et les utilisateurs réguliers s'inscrivaient sur github et ouvriraient des problèmes sur le repo github. Comme, j'ai une start-up, une famille et je l'ai déjà poussé à essayer de construire, de faire des recherches sur l'IA, de déboguer et de commercialiser une application d'édition vidéo d'IA en tant que fondateur solo. je n'avais pas vraiment la patience de déboguer les problèmes de traitement vidéo pour un outil que personne ne me payait de maintenir, de sorte que certains utilisateurs aléatoires puissent évoluer des vidéos générées par l'IA et des films torrentés gratuitement. Ce n'est qu'après avoir reçu 15 messages de suite en une semaine en mai 2025 au sujet de l'application ne fonctionne plus (lorsqu'une mise à jour Chrome a rompu le pipeline de traitement de la vidéo) que j'ai décidé de passer un week-end à déboguer et à résoudre le problème, lorsque je me suis ensuite connecté à Google Analytics pour la première fois en un an. the traffic had grown 10x, by itself, to 30k Monthly Users, despite the bugs. Étant donné que cet outil gratuit aléatoire avait 100x le trafic pour le produit principal de mon démarrage réel, j'ai décidé de le prendre au sérieux, tout d'abord en corrigeant les bugs « Personne ne payerait pour ça » Un ami de moi a suggéré de construire une version payante avec des modèles d'IA plus grands exécutés sur le serveur, et je pensais que c'était une idée stupide parce que j'étais assez sûr que personne n'irait à payer.upscaler.video, mais j'ai également imaginé, ça valait le coup d'essayer une landing page, alors j'ai codé une landing page en 2 heures, tiré un modèle de prix ($5 / heure de vidéo) de mon ***, puis mis une offre disant "$1 pour $20 en crédits", et j'ai mis un lien vers cela sur la page d'accueil de l'outil d'évolution gratuite. En un mois, 103 personnes m'ont payé 1 $, ce qui était environ 4 fois plus que ce que je m'attendais, alors j'ai décidé de prendre cette chose au sérieux. J'ai créé une version payante hors de l'obligation Ce n’est que parce que j’ai mis sur la page « Ce service sera lancé avant le 1er octobre ou vous recevrez votre dépôt » que j’ai eu une pression pour qu’il soit réellement construit. Vous devez comprendre qu'avec la plupart des outils d'escalade ne sont que des enveloppes pour les modèles open source développés par AI Resesearch (comme RealESRGAN). un développeur normal regarderait un modèle open source, travaillerait sur le coût de l'exécuter sur le matériel GPU et déduirait une structure de prix à partir des coûts de traitement. J'ai choisi 5 $ / heure entièrement arbitrairement (c'était juste), et j'ai fait de la R&D personnalisée pour trouver des modèles d'IA qui correspondent au prix que j'ai choisi et j'étais obligé d'honorer en raison du dépôt de 1 $. Voici où l'expérience de l'IA réelle était nécessaire - aucune des choses open source ou de la recherche académique n'était nulle part proche de la performance suffisante pour que ce point de prix fonctionne, mais j'avais suffisamment d'expérience avec la région pour construire quelque chose sur mesure pour des cas d'utilisation spécifiques et des personnes: Les commerçants utilisant des vidéos générées par AI Amateurs torrenting films long-form Les éditeurs de vidéos cherchent à élargir les images 1080p à 4K Les joueurs tentent d'augmenter les enregistrements d'écran à 4K Cela a nécessité environ 6 semaines de R&D (je ne pensais pas que tout cela était «temps actif», j'ai mis en place une course d'entraînement et je suis revenu 2 jours plus tard pour voir les résultats).Avec plus de 100 cours d'entraînement et plus de 5 000 $ dans les coûts de formation du serveur, cela a pris un peu d'effort, mais j'ai terminé les modèles fin septembre. J'ai ensuite simplement codé le reste de l'application (frontend + backend) pendant un week-end, lancé le 30 septembre, et envoyé les e-mails avec des crédits de 20 $ aux abonnés d'accès précoce le dernier jour possible avant d'être obligé de fournir un remboursement. Retour à la version gratuite En utilisant ce que j’ai appris du sprint R&D, j’ai également formé un tout nouveau ensemble de modèles d’IA bien meilleurs pour l’application gratuite, et j’ai obtenu de l’aide des LLM pour améliorer l’interface utilisateur, le rendre mobile, améliorer les métadonnées de base comme <title> et <description>, ainsi qu’une section FAQ. Ces changements très mineurs ont doublé l’utilisation de la version gratuite en 1 mois, atteignant environ 2,3 000 utilisateurs par jour d’ici novembre. Je n'ai pas commercialisé cela nulle part, je n'ai pas essayé d'obtenir que quiconque utilise cet outil, et pourtant j'ai juste fixé les bases (réparation de bugs, amélioration de métadonnées) et j'ai vu une croissance que je ne pouvais que rêver pour mon produit principal Katana. Rentabilité non intentionnelle Après avoir remis le lien vers la version payante sur la page principale de la version gratuite, j'ai soudainement eu des centaines de personnes qui viennent à la version payante chaque jour, avec environ 50% d'inscription et 8% de conversion. Month Revenue September $0 October $1400 November $2800 Septembre 0$ à Octobre 1 400 € Novembre 2800 € Ok, ce n'est pas tellement, mais (1) j'ai des coûts suffisamment bas que je suis à peu près rentable, et (2) c'était sans marketing. je n'ai pas essayé d'obtenir que quiconque utilise mon logiciel, je viens de lancer un produit, les gens sont apparus, ont payé et l'ont utilisé. J'étais complètement en jeu pour entrer dans le mode de vente des fondateurs pour Katana, envoyer des e-mails froids et faire des choses qui n'échelonnent pas, et pourtant, en quelque sorte, la page de démonstration pour un SDK open source abandonné que j'ai construit comme un projet d'apprentissage a atteint le marché du produit d'une manière dont je ne pouvais que rêver pour Katana, et que je n'avais pas vu depuis que ma première startup a lancé le SDK de filtres d'IA qui nous a acquis. Je suis rentable sans marketing, et cela brise simplement mon cerveau et toutes les conceptions que j'avais sur les startups et l'entrepreneuriat. Que fais-je maintenant ? Cet outil d’escalade ne sera jamais une grande entreprise, ce n’est pas ce que j’ai décidé de faire, mais comme, la croissance organique et les revenus qui en découlent semblent trop difficiles à ignorer. En tant que fondateur technique, je veux travailler sur des projets ambitieux et techniquement difficiles, et un outil d'augmentation de la vidéo n'est pas cela, mais j'ai suffisamment de sens du produit pour reconnaître et prioriser les victoires rapides. Dans les deux cas, j’ai appris ceci : Entrées ≠ sorties Certains projets ont l'impression de rouler à la hauteur d'un boulder, et certains roulent juste à la baisse. Les projets Free + Open Source peuvent générer des revenus totalement Je vais aller travailler sur cette chose plus élevée un peu plus, il semble irresponsable de ne pas, mais cette expérience m'a fait réévaluer ce que je veux faire avec Katana. J'ai d'autres projets hautement techniques / open source que j'ai voulu explorer (une technique pour améliorer considérablement l'exactitude et la vitesse des modèles de transcription, un SDK de filtres d'IA open source avec WebGPU), j'aurais autrement appelé ces idées distractions ou irresponsables, mais peut-être que c'est le projet de côté aléatoire qui finit par être la chose qui fonctionne. Merci pour la lecture ! Voici un lien vers l’outil Upscaling : https://free.upscaler.video Voici le code source : https://github.com/sb2702/free-ai-video-upscaler Le SDK Open Source : https://github.com/sb2702/websr/ Et je pense que vous pouvez trouver mes sociétés dans le bio de l'auteur. Merci beaucoup pour la lecture !