Mit navn er Sam, jeg har en baggrund i AI / robotik fra MIT, jeg solgte min første AI-starter i 2021, og min dristige ambitiøse anden AI-starter er , der er finansieret af et gratis browser værktøj, som jeg lancerede for mange år siden og glemte indtil nu. crushing it Gør det okay crushing it Gør det okay Lad mig forklare. Hvordan jeg kom ind i dette Da jeg var færdig med gymnasiet ~2012 ønskede jeg virkelig at gå ind i software, men jeg kunne ikke få et job i teknologi, fordi ingen bekymrede sig om AI på det tidspunkt (dette var 2 hype cyklusser siden), hvilket virker latterligt i baghovedet, men på det tidspunkt var folk besat med mobile apps, og alle de interviews, jeg havde, spurgte folk, om jeg kunne udvikle apps, og jeg kunne ikke. I stedet for at lede efter job lancerede jeg min første startup, en Det var min første foray i startups, og selvfølgelig den første idé ikke fungerede, og jeg gjorde alt forkert (bygge før tale med brugere, samle penge og opbygge et team før produktmarkedet passer), men over flere smertefulde år lærte jeg at pitche og tale med kunder. E-læring app Vi reducerede størrelsen for at holde tingene lean (ja, det var ikke godt), og drejede 10 gange over 5 år, før vi endelig landede på en vellykket idé - vi byggede en SDK med AI-funktioner (virtuelle baggrunde, fjernelse af baggrundsstøj) til videokonferenceapps under pandemien. Købt af en kunde. Ned i kaninhullet med AI-filtre Nu ved jeg hvad du tænker: Går du i gang med at købe filtre? - Du, måske (muligvis?) Går du i gang med at købe filtre? - Du, måske (muligvis?) Måske tænker du ikke på det, men for fortællingens skyld vil jeg antage, at du, kære læser, ruller dine øjne 🙄, som en undskyldning for at forklare nogle noget interessante og arcane tekniske detaljer. Ved opbygning af videokonferencing (især WebRTC) apps, en af de største tekniske udfordringer var at styre brugernes CPU, fordi for et videoopkald med 20 deltagere, en brugers enhed koder en video stream og dekoder 20 andre video streams i parallel, og når brugere deltager på $ 200 netbooks de købte 10 år siden, kan din videoopkald app smelte deres computer, hvilket ikke er godt for opbevaring. De fleste løsninger til AI-filtre som Virtual Backgrounds krævede brug af biblioteker som TensorflowJS eller Googles Mediapipe, som begge i det væsentlige transporterede server ML runtimes (som Pytorch, Tensorflow) til browseren, men dette førte til tonsvis af ineffektivitet (især CPU til GPU kommunikation), som førte til super høj CPU brug. Da Zoom og Google meet havde virtuelle baggrunde, forventes alle andre webrtc-apps at have dem også, men open source-tingen er super ineffektiv, og brugen af dem ville føre til en spike i MMN (månedligt smeltede netbooks). For en af vores mislykkede opstart ideer lærte jeg grafisk behandling via WebGL, og vi tænkte, hvorfor ikke skrive neurale netværk i WebGL browseren? Det er ikke ved hjælp af en runtime som TensorflowJS, vi i det væsentlige bygget vores egen, meget hurtigere runtime ved håndskrevne neurale netværk i grafiske shaders, og træne og optimere neurale netværk til at køre så hurtigt som muligt i betragtning af begrænsningerne af WebGL shaders på netbooks. Så mens Google var travlt med at portere server AI runtimes til browseren, gør webudviklere tilpasse sig, hvad Google AI forskere var komfortabel med, vi gjorde AI forskning til at tilpasse AI modeller til at arbejde i et indfødt web miljø, og resultaterne talte for sig selv. Så vi havde kunder (og købstilbud), fordi vi viste, at vores ting var 10x bedre end open source ting (og hvad Google Meet havde). Men de åbnede den aldrig. Senere kopierede han stille Sideprojektet Efter at vi blev erhvervet, blev vores team på 5 i det væsentlige "AI-teamet" for en virksomhed på 2000 med 5 produkter. Fra 2021 til 2024 var vi travlt med at integrere vores eksisterende AI-filtre i købernes produkter og bygge nye (især efter ChatGPT-bølgen i 2022), og jeg gik fra CEO til produktchef. I 2023 kom WebGPU (efterfølgeren til WebGL) ud Jeg besluttede at praktisere skrivning af Neural Networks i WebGPU (pandemien var overstået, men jeg troede, det var stadig et nyttigt, men meget niche-færdighedssæt). AI Upscaling skete lige for at være den enkleste mulige AI-opgave at skrive et Neural Network for (det er bare et smart skærpende filter). at opgradere videoer i browseren. Udskrivning af SDK import WebSR from '@websr/websr'; const gpu = await WebSR.initWebGPU(); if(!gpu) return console.log("Browser/device doesn't support WebGPU"); const websr = new WebSR({ source: // An HTML Video Element network_name: "anime4k/cnn-2x-s", weights: await (await fetch('./cnn-2x-s.json')).json() //found in weights/anime4k folder gpu, canvas: //A canvas, with 2x the width and height of your input video }); await websr.start(); // Play the video Bogstaveligt talt som en demo til SDK, for at vise et reelt fungerende eksempel på, hvordan man bruger det, byggede jeg et hurtigt værktøj til at opskalere videoer i browseren. Jeg skrev det på Reddit og glemte det. gratis.upscaler.video af Det “rigtige” projekt Som leder af AI for en 2.000-person start-up med flere produkter, da 2023 Gen AI boom startede, blev jeg oversvømmet med funktion anmodninger fra forskellige produktteams. Vi endte med at prioritere AI-redigering af funktioner til Streamyard (live streaming værktøj). Efter at have kigget på, hvad konkurrenterne gjorde, blev jeg flabbergasted over at se en bølge af "AI-redigering startups", der kogte ned til at transkribere en video, og opfordrede ChatGPT til at redigere forslag. Efter at have brugt år i "Real AI", tænkte jeg, at du kunne opbygge meget bedre, brugerdefineret AI, der kunne forstå, lyd, visuel og transkriptionsinformation, som kunne behandle og redigere video 10x bedre, hurtigere og billigere end alle andre gjorde. Jeg byggede en PoC, og det fungerede fuldstændigt, men før vi faktisk kunne bygge det ind i produktet, blev virksomheden pludselig solgt til en PE-virksomhed, og alle enten gik af eller blev fyret. Så jeg lancerede min anden start ( ) med ideen om at opbygge en fundamentmodel for videoredigering, som kunne redigere langformularindhold hurtigt, billigt og pålideligt samt moderat dygtige videoeditorer, og valgte at starte med podcasts (mange podcastere brugte Streamyard). Katana Lærte fra min første startups fejl, valgte jeg at starte selv og finde ud af, hvad der ville fungere, før jeg forsøgte at skalere, hvilket betyder, at jeg er super omkostningseffektiv, men bevæger mig langsommere, end jeg sikkert kunne have med et team. Jeg lancerede det i juli 2025, og det går ikke forfærdeligt, det har taget måneder med forskning og udvikling og opbygning af funktioner, debugging og tale med brugere, for at opbygge en fuldt fungerende AI-videoredigeringssuite, drevet af et dusin brugerdefinerede, selvuddannede AI-modeller, men gennem flere lanceringer og iterationer Det er kommet til flere dusin brugere, der bruger det, samt omkring ~10 kunder, alt uden markedsføring (alle brugere & kunder hidtil er kommet fra organisk søgning). Succes på trods af de værste bestræbelser Mens jeg var slaver væk på mit AI Redigeringsværktøj, indså jeg ikke, at min kastede upscaler demo havde været stille voksende med 15% Måned over Måned helt organisk. Jeg tjekkede aldrig tallene, men den eneste måde, jeg vidste, at folk brugte min app, var fordi brugere sendte mig beskeder på reddit om bugs, og regelmæssige brugere tilmeldte sig github og åbnede problemer på github repo. Som, jeg har en start-up, en familie, og jeg var allerede skubber det forsøger at opbygge, gøre AI forskning for, debug og markedsføre en AI Video Editing applikation som en solo grundlægger. Det var først efter at have modtaget 15 meddelelser i træk i en uge i maj 2025 om appen ikke længere fungerer (når en Chrome-opdatering brød videobehandlingspipeline), at jeg besluttede at tilbringe en weekend debugging og løse problemet, da jeg derefter loggede ind i Google Analytics for første gang i et år jeg så det. the traffic had grown 10x, by itself, to 30k Monthly Users, despite the bugs. Da dette tilfældige gratis værktøj havde 100x trafikken til mit faktiske opstarts hovedprodukt, besluttede jeg at tage det alvorligt, først og fremmest ved at rette bugs ”Ingen ville betale for det” En ven af mig foreslog at opbygge en betalt version med større AI-modeller, der kørte på serveren, og jeg troede, det var en dum idé, fordi jeg var ret sikker på, at ingen ville gå til paid.upscaler.video, men jeg fandt også ud af, at det var i det mindste værd at prøve en landingsside, så jeg vibe kodet en landingsside i 2 timer, trak en prismodel ($ 5 / time af video) ud af min ***, og derefter stillede et tilbud, der sagde "$ 1 for $ 20 i kreditter", og jeg satte et link til dette på forsiden af gratis opskalering værktøj. I en måned 103 personer betalte mig $ 1, hvilket var omkring 4x mere end jeg forventede, så jeg begrudgende besluttede at tage denne ting alvorligt. Jeg har lavet en betalt version ud af forpligtelse Det var kun fordi jeg satte på siden "Denne tjeneste vil lancere før 1. oktober eller du får dit depositum tilbage", at jeg havde noget pres for faktisk at gå bygge det. Du skal forstå, at de fleste upscaling-værktøjer kun er emballager til open source-modeller udviklet af AI Resesearch (som RealESRGAN). Jeg valgte $ 5 / time helt vilkårligt (det føltes rigtigt), og jeg gjorde brugerdefineret R & D for at komme op med AI-modeller, der passer til den prissætning, jeg valgte, og var forpligtet til at ære på grund af $ 1 depositum. Her var der brug for reel AI-erfaring - ingen af de open source-ting eller akademisk forskning var nogen steder tæt på at være tilstrækkeligt effektive til at gøre det prispunkt arbejde, men jeg havde nok baggrund med området til at opbygge noget skræddersyet til specifikke brugssager og personer: Markedsførere, der bruger AI-genererede videoer Amatører torrenting langformede film Video-editorer, der ønsker at opskalere 1080p-optagelser til 4K Spillere forsøger at opskalere skærmoptagelser til 4K Det krævede faktisk omkring 6 uger af R&D (tænkte ikke alt det "aktiv tid", jeg ville indstille en træning løb og komme tilbage 2 dage senere for at se resultaterne). Jeg så bare vibe kodet resten af appen (frontend + backend) over en weekend, lanceret i den 30. september, og sendte e-mails med $ 20 kreditter til tidlig adgang abonnenter på den sidste mulige dag, før jeg var forpligtet til at give en refundering. Tilbage til den gratis version Ved hjælp af det, jeg lærte fra R&D-sprintet, uddannede jeg et helt nyt sæt af meget bedre AI-modeller til den gratis app også, og fik lidt hjælp fra LLM'er til at sprute UI op, gøre det mobilt responsivt, forbedre grundlæggende metadata som <title> og <description>, sammen med en FAQ-sektion. Disse meget små ændringer fordoblede brugen i den gratis version i 1 måned, når omkring 2.3k brugere per dag i november. Jeg markedsførte ikke dette nogen steder, jeg forsøgte ikke at få nogen til at bruge dette værktøj, og alligevel fikserede jeg kun det grundlæggende (fixing bugs, forbedring af meta data) og jeg så vækst, jeg kun kunne drømme om for mit hovedprodukt Katana. Utilsigtet rentabilitet Efter at have sat linket til den betalte version tilbage på hovedsiden af den gratis version, havde jeg pludselig hundredvis af mennesker, der kom til den betalte version hver dag, med omkring 50% tilmelding og 8% konvertering. Month Revenue September $0 October $1400 November $2800 september 0 kr. oktober 1400 kr. november 2800 kr. Okay, det er ikke så meget, men (1) jeg har lave omkostninger nok til, at jeg er lige om rentabel, og (2) dette var uden nogen markedsføring. jeg forsøgte ikke at få nogen til at bruge min software, jeg lige lanceret et produkt, folk dukkede op, betalte for det og brugte det. Jeg var fuldt spil til at gå ind i grundlæggersalgstilstand for Katana, sende kolde e-mails og gøre ting, der ikke skaleres, og alligevel på en eller anden måde demonstrationssiden for en forladt open source SDK, jeg byggede som et læringsprojekt, nåede produktmarkedet på en måde, jeg kun kunne drømme om for Katana, og som jeg ikke havde set siden min første start lancerede AI Filters SDK, der fik os erhvervet. Jeg er rentabel uden nogen markedsføring, og det bryder bare min hjerne og alle de forestillinger, jeg havde om startups og iværksætteri. Hvad gør jeg nu? Dette upscaling værktøj vil aldrig være et stort firma, det er ikke, hvad jeg satte mig ud for at gøre, men ligesom, organisk vækst og indtægterne fra det synes for vanskeligt at ignorere. Som teknisk grundlægger vil jeg arbejde på ambitiøse, og teknisk vanskelige projekter, og et video upscaling værktøj er ikke det, men jeg har nok produktfølelse til at genkende og prioritere hurtige gevinster. I begge tilfælde har jeg lært det: Indgang ≠ udgang Nogle projekter føles som at rulle en boulder opad, og nogle bare rulle nedad Gratis + Open Source-projekter kan generere indtægter Jeg kommer til at arbejde på denne upscaler ting lidt mere, det virker uansvarligt ikke at gøre, men denne oplevelse har fået mig til at re-evaluere, hvad jeg vil gøre med Katana. Jeg har nogle andre meget tekniske side / open source-projekter, jeg har ønsket at udforske (en teknik til at forbedre nøjagtigheden og hastigheden af transkriptionsmodeller, en open source AI Filters SDK med WebGPU), jeg ville ellers have kaldt disse ideer distraktioner eller uansvarlige, men måske er det det tilfældige sideprojekt, der ender med at være det, der virker. Tak for læsningen! Her er et link til upscaling værktøjet: https://free.upscaler.video Her er kildekoden: https://github.com/sb2702/free-ai-video-upscaler Open Source SDK er: https://github.com/sb2702/websr/ Og jeg tror, du kan finde mine sociale i forfatterens bio. Tak så meget for læsningen!