Казвам се Сам, имам опит в областта на изкуствения интелект/роботиката от MIT, продадох първия си старт на изкуствен интелект през 2021 г., а вторият ми амбициозен старт на изкуствен интелект е... , финансиран от безплатен браузър инструмент, който стартирах преди години и забравих за сега. Счупи го Да правиш ОК Счупи го Да правиш ОК Позволете ми да обясня. Как попаднах в това Когато завърших училище ~2012 наистина исках да отида в софтуера, но не можех да намеря работа в технологията, защото никой не се грижеше за AI по това време (това беше преди 2 цикъла на хип) което изглежда смешно в заден план, но по това време хората бяха обсебени от мобилни приложения и всички интервюта, които имах, хората попитаха дали мога да развивам приложения и аз не можех. Вместо да търся работа, стартирах първия си стартъп, Това беше първият ми пробив в стартиращите компании и, разбира се, първата идея не работеше и направих всичко погрешно (изграждане преди да говоря с потребителите, събиране на пари и изграждане на екип, преди продуктът да се вписва на пазара), но през няколко болезнени години се научих да пиша и да говоря с клиентите. Електронно обучение App Ние намалихме размера, за да запазим нещата тънки (да, това не беше страхотно) и завъртяхме 10 пъти в продължение на 5 години, преди най-накрая да стигнем до успешна идея - създадохме SDK с AI функции (виртуални фонове, премахване на фонов шум) за приложения за видеоконференции по време на пандемията. Купена от клиент. Долу в заекната дупка с AI филтри Сега знам какво мислиш: Да се купуват филтри за АИ? наистина? - Вие, може би (вероятно?) Да се купуват филтри за АИ? наистина? - Вие, може би (вероятно?) Може би не мислите така, но в името на разказа, ще приемем, че вие, скъпи читатели, се движите с очите си, като извинение да обясните някои доста интересни и арканични технически детайли. При изграждането на видеоконферентни приложения (особено WebRTC) едно от най-големите технически предизвикателства беше управлението на CPU на потребителите, защото за видеоразговор с 20 участника устройството на потребителя кодира видео поток и декодира 20 други видеопотока паралелно, а когато потребителите се присъединяват към 200-доларови нетбуци, които са закупили преди 10 години, приложението за видеоразговори може да разтопи компютъра им, което не е чудесно за съхранение. Повечето решения за филтри за изкуствен интелект като Virtual Backgrounds изискват използването на библиотеки като TensorflowJS или Mediapipe на Google, и двете от които по същество прехвърлят сървърни ML runtimes (като Pytorch, Tensorflow) към браузъра, но това доведе до тонове неефективност (по-специално CPU към GPU комуникация), което доведе до супер висока употреба на CPU. Тъй като Zoom и Google Meet имат виртуални фонове, всяко друго приложение на webrtc се очаква да ги има също, но нещата с отворен код са супер неефективни и използването им ще доведе до скок в MMN (месечно разтопени нетбуци). За една от нашите неуспешни идеи за стартиране научих графична обработка чрез WebGL и си помислихме, защо не пишете невронни мрежи в WebGL браузъра?Това не е с помощта на време за изпълнение като TensorflowJS, ние по същество изградихме собствено, много по-бързо време за изпълнение чрез ръчно писане на невронни мрежи в графични shaders и обучение и оптимизиране на невронни мрежи, за да работят възможно най-бързо предвид ограниченията на WebGL shaders на нетбуки. Така че докато Google беше зает с прехвърлянето на сървъра AI runtimes към браузъра, което прави уеб разработчиците да се адаптират към това, което Google AI изследователи са били комфортни с, ние направихме AI изследвания за адаптиране на моделите на AI, за да работят в местна уеб среда, и резултатите говорят сами за себе си. Така че имахме клиенти (и оферти за придобиване), защото доказахме, че нашите неща са 10 пъти по-добри от тези с отворен код (и това, което Google Meet имаше). Но те никога не го отварят. По-късно тихо копира подхода Страничен проект След придобиването ни, нашият екип от 5 души по същество се превърна в "ИИ екип" за компания от 2000 души с 5 продукта.От 2021 до 2024 г. бяхме заети с интегрирането на нашите съществуващи филтри за ИИ в продуктите на купувачите и изграждането на нови (особено след вълната ChatGPT през 2022 г.), а аз отидох от главен изпълнителен директор до мениджър на продукта. През 2023 г. излезе WebGPU (наследникът на WebGL) Реших да практикувам писането на невронни мрежи в WebGPU (пандемията свърши, но си помислих, че все още е полезен, но много нисък набор от умения). AI Upscaling току-що се случи да бъде най-простата възможна задача на AI, за да напишете невронна мрежа (това е просто интелигентен филтър за заточване). Изтегляне на видео в браузъра. Създаване на SDK import WebSR from '@websr/websr'; const gpu = await WebSR.initWebGPU(); if(!gpu) return console.log("Browser/device doesn't support WebGPU"); const websr = new WebSR({ source: // An HTML Video Element network_name: "anime4k/cnn-2x-s", weights: await (await fetch('./cnn-2x-s.json')).json() //found in weights/anime4k folder gpu, canvas: //A canvas, with 2x the width and height of your input video }); await websr.start(); // Play the video Буквално като демонстрация за SDK, за да покажа истински работен пример за това как да го използвам, създадох бърз инструмент за улеснение на видеоклиповете в браузъра. Публикуваха го на Reddit и го забравиха. free.upscaler.видео от „Истинският проект“ Като ръководител на AI за стартъп от 2000 души с множество продукти, тъй като бумът на Gen AI през 2023 г. започна, бях наводнен от искания за функции от различни продуктови екипи. В крайна сметка приоритизирахме функциите за редактиране на AI за Streamyard (инструмент за стрийминг на живо). След като погледнах какво правят конкурентите, бях шокиран да видя вълна от "AI редактиране на стартиращи фирми", които се опитаха да пренапишат видео и да помогнат на ChatGPT за предложения за редактиране. След като прекарах години в "Реал AI", си помислих, че можете да изградите много по-добър, персонализиран AI, който може да разбере, аудио, визуална и транскриптна информация, която може да обработва и редактира видео 10 пъти по-добре, по-бързо и по-евтино, отколкото всеки друг. Построих PoC и напълно работи, но преди да можем да го изградим в продукта, компанията внезапно беше продадена на фирма за PE и всички или напуснаха, или бяха уволнени. Така че стартирах втория си старт ( ) с идеята за изграждане на основен модел за редактиране на видео, който може да редактира дългоформатно съдържание бързо, евтино и надеждно, както и умерено квалифициран видео редактор, и избра да започне с подкасти (много подкастиращи използват Streamyard). Катана Научавайки се от грешките на първото ми стартиране, реших да започна сам и да разбера какво ще работи, преди да се опитам да скалирам, което означава, че съм супер разходоефективен, но се движа по-бавно, отколкото със сигурност бих могъл с екип. Стартирах го през юли 2025 г. и не върви ужасно, отне месеци на R&D и изграждане на функции, дебютиране и разговори с потребители, за да се изгради пълен работен AI видео редактиране пакет, задвижван от дузина персонализирани, самообучени AI модели, но чрез няколко пускания и итерации Той е получил няколко десетки потребители, които го използват, както и около ~10 клиенти, всички без маркетинг (всички потребители и клиенти досега са дошли от органично търсене). Успех въпреки най-лошите усилия Докато работел в инструмента за редактиране на AI, не осъзнах, че моето демонстрационно изскачащо изскачащо устройство е нараствало тихо с 15% месечно напълно органично. Никога не съм проверявал числата, но единственият начин, по който знаех, че хората използват приложението ми, беше защото потребителите ми изпращаха съобщения за грешки в reddit, а редовните потребители се регистрираха за github и отваряха проблеми в репото на github. Като, имам стартъп, семейство и вече се опитвах да се опитам да изградя, да направя изследвания за AI, да дебютирам и да продавам приложение за редактиране на AI Video като соло основател. Само след като получих 15 съобщения в продължение на една седмица през май 2025 г. за приложението, което вече не работи (когато актуализацията на Chrome прекъсна тръбопровода за обработка на видео), реших да прекарам уикенд за дебютиране и отстраняване на проблема, когато след това влезех в Google Analytics за първи път от година видях, че the traffic had grown 10x, by itself, to 30k Monthly Users, despite the bugs. Като се има предвид, че този произволен безплатен инструмент е имал 100x трафик за основния продукт на моето действително стартиране, реших да го взема сериозно, първо и преди всичко, като поправя грешките "Никой няма да плати за това" Един мой приятел предложи да се изгради платена версия с по-големи AI модели, работещи на сървъра, и си помислих, че това е глупава идея, защото бях доста сигурен, че никой няма да отиде на pay.upscaler.video, но също така си помислих, че е най-малко си струва да опитате целева страница, така че в продължение на 2 часа кодирах целева страница, извадих ценови модел ($ 5 / час видео) от моя ***, а след това поставих оферта, казваща "$ 1 за $ 20 в кредити", и поставих връзка към това на предната страница на инструмента за безплатно разширяване. За един месец 103 души ми плащат $1, което е около 4 пъти повече, отколкото очаквах, така че реших да взема това нещо сериозно. Създадох платена версия от задължение Само защото поставих на страницата "Тази услуга ще стартира преди 1 октомври или ще получите депозита си обратно", имах някакъв натиск да я изградя. Трябва да разберете, че с повечето инструменти за увеличаване на мащаба са просто опаковки за модели с отворен код, разработени от AI Resesearch (като RealESRGAN). нормален разработчик ще разгледа модел с отворен код, ще изчисли разходите за изпълнение на GPU хардуер и ще извлече ценова структура от разходите за обработка. Избрах $ 5 / час напълно произволно (се почувствах правилно) и направих персонализирани R & D, за да измислям модели на AI, които съответстват на ценообразуването, което избрах и бях длъжен да почетя поради депозита от $ 1. Тук е мястото, където се нуждаеше от истински опит в областта на изкуствения интелект - никой от материалите с отворен код или академичните изследвания не бяха достатъчно ефективни, за да направят тази ценова точка работа, но имах достатъчно опит в областта, за да изградя нещо специално за конкретни случаи на употреба и личности: Маркетолози, които използват AI генерирани видеоклипове Аматьори торентират филми с дълги форми Видео редакторите, които искат да увеличат изображенията в 1080p до 4K Геймърите се опитват да увеличат екранните си записи до 4K Това наистина изисква около 6 седмици R&D (не мислех, че всичко е "активно време", щях да настроя тренировка и да се върна 2 дни по-късно, за да видя резултатите).С 100+ тренировки и $ 5k+ в разходите за обучение на сървъри, това наистина отнема известно усилие, но завърших моделите до края на септември. След това просто кодирах останалата част от приложението (frontend + backend) през уикенда, стартиран на 30 септември, и изпратих имейлите с $ 20 кредити на абонатите за ранно достъп на последния възможен ден, преди да бъда задължен да предоставя възстановяване. Връщане на уроците в безплатната версия Използвайки това, което научих от спринта за научноизследователска и развойна дейност, обучих цял нов набор от много по-добри модели на ИИ за безплатното приложение и получих някаква помощ от LLMs, за да разширя интерфейса на потребителя, да го направя мобилен, да подобря основните метаданни като <title> и <description>, заедно с раздел FAQ. Тези много малки промени удвоиха използването на безплатната версия за 1 месец, достигайки до около 2,3 хил. потребители на ден до ноември. Не продавах това никъде, не се опитвах да накарам никого да използва този инструмент и все пак просто поправих основите (поправяне на грешки, подобряване на метаданните) и видях растеж, за който можех само да мечтая за основния си продукт Katana. Непреднамерена рентабилност След като поставих връзката към платената версия обратно на главната страница на безплатната версия, изведнъж имаше стотици хора, които идват на платената версия всеки ден, с около 50% регистриране и 8% конвертиране. Month Revenue September $0 October $1400 November $2800 Септември 0 долара Октомври 1400 долара ноември от 2800 Добре, това не е толкова много, но (1) имам достатъчно ниски разходи, за да бъда печеливш, и (2) това беше без никакъв маркетинг. не се опитвах да накарам никого да използва моя софтуер, просто стартирах продукт, хората се появиха, платиха за него и го използваха. Бях напълно готов да вляза в режима за продажби на основателите за Katana, да изпращам студени имейли и да правя неща, които не се мащабират, и все пак по някакъв начин демо страницата за изоставен SDK с отворен код, който изградих като учебен проект, достигна продукта на пазара по начин, за който можех само да мечтая за Katana и който не бях виждал, откакто първият ми стартъп пусна SDK за AI Filters, който ни придобил. Аз съм печеливш без никакъв маркетинг, и това просто разбива мозъка ми и всички концепции, които имах за стартиращите компании и предприемачеството. Какво правя сега? Този инструмент за разширяване никога няма да бъде голяма компания, това не е това, което се опитах да направя, но като органичен растеж и приходите от него изглежда твърде трудно да се игнорират. Като технически основател искам да работя по амбициозни и технически трудни проекти, а инструментът за скалиране на видео не е това, но имам достатъчно чувство за продукт, за да разпознавам и да приоритетирам бързите победи. И в двата случая научих това: Вход ≠ Изход Някои проекти се чувстват сякаш се движат нагоре, а някои просто се движат надолу. Безплатните проекти с отворен код могат напълно да генерират приходи Ще продължа да работя по това нещо, изглежда безотговорно да не го правя, но този опит ме накара да преоценя какво искам да направя с Катана. Имам някои други високо технически странични / проекти с отворен код, които съм искал да проуча (техника за значително подобряване на точността и скоростта на транскрипционните модели, SDK с отворен код AI Filters с WebGPU), иначе бих нарекъл тези идеи разсейващи или безотговорни, но може би това е случайният страничен проект, който в крайна сметка е нещото, което работи. Благодаря за четенето! Ето линк към инструмента Upscaling: https://free.upscaler.video Ето и изходния код: https://github.com/sb2702/free-ai-video-upscaler СДК с отворен код: https://github.com/sb2702/websr/ И мисля, че можете да намерите моите социални в авторите био. Много благодаря за четенето!