私の名前はサム、私はMITのAI / ロボティクスの背景を持っており、私は2021年に最初のAIスタートアップを販売し、私の大胆な野心的な第二のAIスタートアップは で、 私が何年も前にリリースし、今まで忘れていた無料のブラウザツールによって資金調達されています。 crushing it 行うOK crushing it 行うOK 説明させてください。 How I got into this 私が大学院を卒業した2012年、私は本当にソフトウェアに入りたいと思っていたが、テクノロジーの仕事に就くことができなかったので、当時誰もAIのことを気にしていなかった(これは2回のハイプサイクルだった)が、後ろから笑えるように見えるが、当時、人々はモバイルアプリに執着していましたが、私が持っていたすべてのインタビューで、人々は私がアプリを開発できるかどうかを尋ねましたが、私はできませんでした。 仕事を探す代わりに、私は最初のスタートアップを開始しました。 最初のアイデアはうまくいかなかったし、私はすべてを間違えた(ユーザーと話す前に構築し、お金を集め、製品市場に適合する前にチームを構築する)が、いくつかの苦痛な年間にわたって、私はピッチし、顧客と話すことを学びました。 電子学習 App 私たちは、物事を滑らかに保つためにサイズを下げた(はい、それは素晴らしいことではなかった)、そして5年間で10回、ようやく成功したアイデアに着陸する前に、ビデオ会議アプリケーションのためにAI機能(仮想バックグラウンド、バックグラウンドノイズ除去)を備えたSDKを構築しました。 お客様から購入しました。 Down the rabbit hole with AI filters(AIフィルターでウサギの穴を下ろす) 今、あなたが何を考えているか知っています: AIフィルターの買収? 本当に? - あなた、おそらく(おそらく?) AIフィルターの買収? 本当に? - あなた、おそらく(おそらく?) おそらくあなたはそう考えていないかもしれませんが、物語の為に、私はあなたが、親愛なる読者よ、いくつかの興味深いかつ不思議な技術的な詳細を説明するための言い訳として、あなたの目を振り回していると仮定します。 ビデオ会議アプリケーション(特にWebRTC)を構築する際に、最大の技術的な課題の1つは、ユーザーのCPUを管理することでした、なぜなら、20人の参加者を含むビデオ通話の場合、ユーザーのデバイスはビデオストリームを暗号化し、20の他のビデオストリームを並行して解読しています。 仮想バックグラウンドのようなAIフィルターのほとんどのソリューションは、TensorflowJSやGoogleのMediapipeのようなライブラリを使用する必要があり、どちらも本質的にサーバーMLランタイム(Pytorch、Tensorflowなどの)をブラウザに移行しましたが、これは非常に高いCPU使用につながる多くの非効率性(特にCPU対GPU通信)を引き起こしました。 Zoom と Google が仮想バックグラウンドを持っていたので、他のすべての webrtc アプリもそれらを持つことが期待されますが、オープンソースのものは非常に効率が低く、それらの使用は MMN (月間溶解されたネットブック) のピークにつながります。 私たちの失敗したスタートアップアイデアの1つとして、私はWebGL経由でグラフィック処理を学び、なぜWebGLブラウザでニューラルネットワークを書かないのでしょうか?それはTensorflowJSのようなランタイムを使用してではなく、我々は基本的に、グラフィックシェーダーで手書きのニューラルネットワークを構築し、ネットブック上のWebGLシェーダーの制約を考慮して、できるだけ速く実行するためにニューラルネットワークを訓練し、最適化しました。 したがって、Google はサーバー AI ランタイムをブラウザに移行し、Web 開発者が Google AI 研究者が快適に感じているものに適応させるのに忙しくしていましたが、AI モデルをネイティブな Web 環境で動作させるためにAI 研究を行いました。 したがって、我々はオープンソースのものよりも10倍優れていることを証明したため、顧客(および買収オファー)がありました(そしてGoogle Meetが持っていたもの)。 しかし、彼らは決して開いたことがない。 後で静かにコピーした。 サイドプロジェクト 私たちが買収された後、私たちの5人のチームは本質的に5製品を持つ2000人の会社の「AIチーム」となりました。2021年から2024年まで、私たちは既存のAIフィルターを買収者の製品に統合し、新しいものを構築していました(特に2022年のChatGPT波の後)、そして私はCEOから製品マネージャーに移りました。 2023年にWebGPU(WebGLの後継者)が出た私はWebGPUでニューラルネットワークを書く練習を決めた(パンデミックは終わったが、それはまだ有用だが非常にニッチなスキルセットだと思った)。 ブラウザで動画をアップグレードする タイトル SDK import WebSR from '@websr/websr'; const gpu = await WebSR.initWebGPU(); if(!gpu) return console.log("Browser/device doesn't support WebGPU"); const websr = new WebSR({ source: // An HTML Video Element network_name: "anime4k/cnn-2x-s", weights: await (await fetch('./cnn-2x-s.json')).json() //found in weights/anime4k folder gpu, canvas: //A canvas, with 2x the width and height of your input video }); await websr.start(); // Play the video 文字通りSDKのデモとして、それをどのように使用するかという本当の実例を示すために、私はブラウザでビデオを拡張するための高速なユーティリティツールを構築しました。 Redditに投稿して、忘れてしまいました。 free.upscaler.ビデオ 「本物のプロジェクト」 複数の製品を持つ2000人のスタートアップのAIの責任者として、2023世代AIのブームが始まると、私は異なる製品チームからの機能要請に浸透しました。 我々は、Streamyard(ライブストリーミングツール)のAI編集機能を優先することにしたが、競争相手が何をしているのかを見た後、私は「AI編集スタートアップ」の波を見ると、ビデオを転写し、チャットGPTに編集の提案を促した。 「リアルAI」で何年も過ごした後、あなたは、オーディオ、ビジュアル、トランスクリプト情報を理解できるより良い、カスタマイズされたAIを構築でき、ビデオを10倍も良く、速く、そして誰よりも安く処理し、編集することができます。 私はPoCを構築し、完全に機能しましたが、実際に製品に組み込む前に、会社は急にPE会社に売却され、誰もが辞めたり解雇されたのです。 そこで、私は2番目のスタートアップを開始しました( )は、長い形式のコンテンツを迅速かつ安価かつ信頼性の高い方法で編集することができ、および適度に熟練したビデオエディターを編集することができるビデオ編集のための基礎モデルを構築するアイデアとし、ポッドキャストから始めることを選択しました(多くのポッドキャストはStreamyardを使用しました)。 Katana 私の最初のスタートアップのミスから学び、私は自分自身で始めることを選択し、スケールを試みる前に何がうまくいくのかを考え、これは私がスーパーコスト効率的であることを意味しますが、チームで確実にできるよりもゆっくりと動きます。 私は2025年7月にリリースし、それは恐ろしくない、それは数ヶ月のR&Dとビルディング機能、デバッグとユーザーと話し合って、数十個のカスタム、自己訓練のAIモデルによって動作する完全なAIビデオ編集スイートを構築するのにかかっています、しかし、いくつかのリリースとイテレーションを通じてそれはそれを使用する数十人のユーザーに達しました、および約10顧客、すべてマーケティングなし(これまでのすべてのユーザーと顧客は有機検索から来ています)。 最悪の努力にもかかわらず成功 私はAI編集ツールで奴隷化していましたが、私の投げ捨てのアップスケーラーデモが完全に有機的に月の15%で静かに成長していることに気づいていませんでした。 私は数字をチェックしたことはありませんでしたが、私が知っている唯一の方法は、ユーザーがバグについてRedditで私にメッセージを送っていたためでした、そして通常のユーザーはGitHubにサインアップし、GitHubのレポで問題を解除していました。 例えば、私はスタートアップ、家族を持っており、AIの開発を試み、AIの研究を行い、AIビデオ編集アプリケーションをデバッグし、ソロの創設者として販売していました。 2025年5月、アプリがもはや動作しない(Chromeのアップデートがビデオ処理パイプラインを破った時)について一週間で15件のメッセージを受け取った後で、私は週末をデバッグして問題を修正することに決め、その後1年で初めてGoogleアナリティクスにサインインインした。 the traffic had grown 10x, by itself, to 30k Monthly Users, despite the bugs. このランダムな無料ツールは、私の実際のスタートアップの主な製品のトラフィックの100倍だったので、まずバグを修正することによって、それを真剣に取ることにしました。 「誰もこれを払わないだろう」 私の友人は、サーバー上で実行されているより大きなAIモデルで有料バージョンを構築することを提案し、私は誰も pay.upscaler.video へ行かないだろうと確信していたので、馬鹿げたアイデアだと思いましたが、少なくともランディングページを試してみる価値がありましたので、私は2時間でランディングページをコードし、価格モデル(ビデオの時間あたり5ドル)を私の *** から引っ張り出し、その後、「クレジットで20ドルで1ドル」と述べるオファーを提出し、フリーアップスケーリングツールのトップページにリンクしました。 1ヶ月で103人が私に1ドルを支払ったので、私が予想していたよりも約4倍だったので、私はこのことを真剣に考えることに決めました。 I built a paid version out of obligation. 私は義務から支払ったバージョンを構築しました。 「10月1日までにこのサービスを開始するか、あなたがあなたの預金を返す」というページに置いたためだけに、実際にそれを構築するよう圧力をかけることができました。 ほとんどのアップスケーリングツールは、AI Resesearch(RealESRGAN)が開発したオープンソースモデルのためのウラッパーであることを理解する必要があります。通常の開発者は、オープンソースモデルを見て、GPUハードウェア上で実行するコストを計算し、処理コストから価格構造を引き出します。 私は完全に任意に5ドル/時間を選択しました(それは正しいと感じました)、私は私が選んだ価格に合うAIモデルを作成するためにカスタマイズされたR&Dをしました。 実際のAIの経験が必要な場所はここにありました - オープンソースの物件や学術研究のいずれも、その価格ポイントを動かすのに十分なパフォーマンスに近いところではなかったが、特定の使用事例や個人のためにカスタマイズされたものを構築するのに十分な背景を持っていた: AI生成ビデオを使用するマーケター アマチュアのTorrent Long Form Movies ビデオエディターが1080p映像を4Kにアップスケールしようとしている プレーヤーがスクリーン録音を4Kに拡張しようと試みる それは約6週間のR&Dが必要でした(すべてを「アクティブな時間」とは思わなかったので、私はトレーニングを設定し、結果を見るために2日後に戻りました)。 私はその後、9月30日にリリースされた週末に残りのアプリ(フロントエンド +バックエンド)を暗号化し、払い戻しを義務付けられる前の最後の日に、早期アクセスのサブスクリプトに20ドルのクレジットでメールを送りました。 レッスンを無料バージョンに戻す 私がR&Dスプリントから学んだことを活用して、私は無料アプリケーションのためのより良いAIモデルの全新セットを訓練し、LLMからUIをスプリントし、モバイルに反応し、<title>と<description>のような基本的なメタデータを向上させ、FAQセクションと一緒にいくつかの助けを得ました。 これらの非常に小さな変更により、無料版の使用量は1カ月で倍増し、11月までに1日あたりのユーザー数は約23万人に達した。 私はこのツールをどこにも販売しなかったし、誰にもこのツールを使用させようとしなかったし、それでも基本的な問題(バグの修正、メタデータの改善)を修正しただけで、私は主な製品Katanaのための成長を見た。 意図しない収益性 After putting the link to the paid version back into the main page of the free version, I suddenly had hundreds of people coming to the paid version every day, with around 50% signing up and 8% converting. Here’s the revenue so far: Month Revenue September $0 October $1400 November $2800 9月 ドル0 10月 1400ドル 11月 2800ドル よし、それはそれほどではないが、(1)私は収益性に近いほど低いコストを持っているし、(2)これはマーケティングなしだった。私は誰も私のソフトウェアを使用させようとしなかった、私はただ製品を立ち上げ、人々が現れ、それを支払い、それを使用しました。 私はカタナの創始者販売モードに入り、冷たいメールを送信し、スケールしないことをするために完全にゲームだったが、何となく、私は学習プロジェクトとして作った放棄されたオープンソースSDKのデモページは、私がカタナのために夢見るしかなかった方法で製品市場に適合し、最初のスタートアップが私たちを買収させたAIフィルターSDKを立ち上げて以来見たことがなかった。 私はマーケティングなしで儲かっていますが、それは私の脳とスタートアップや起業家精神について持っていたすべての概念を壊します。 わたしは今何をするのか。 このアップスケーリングツールは決して大きな会社ではなくなり、私がやろうとしているのではなく、有機的な成長とその収益は無視しにくいようです。 技術的創設者として、私は野心的な、技術的に困難なプロジェクトに取り組みたいと考えていますが、ビデオアップスケーリングツールはそうではありませんが、すぐに勝利を認識し優先するのに十分な製品感覚を持っています。 どちらの場合も、私はこれを学びました: INPUT ≠ OUTPUT Some projects feel like rolling a boulder up, and some just roll down フリー+オープンソースプロジェクトは完全に収入を生み出すことができます もう少しこのスケールアップの仕事に取り組むつもりですが、無責任なことのように思えますが、この経験によって私はカタナとやりたいことを再評価しました。 私が探求したい他の高度に技術的なサイド/オープンソースプロジェクト(トランスクリプションモデルの正確さと速度を大幅に向上させるテクニック、WebGPUを搭載したオープンソースのAIフィルターSDK)がありますが、私はそうでないと、これらのアイデアを分散または無責任と呼びますが、たぶんそれはランダムサイドプロジェクトです。 読んでくれてありがとう! 以下はアップスケールツールへのリンクです。 https://free.upscaler.video こちらはソースコード: https://github.com/sb2702/free-ai-video-upscaler オープンソースSDK: https://github.com/sb2702/websr/ そして、私のソーシャルは作者のバイオで見つけることができます。 読んでくれてありがとう!