今年の5月にアメリカに戻ったとき、私は旅行や仕事から少し自由な時間を(ようやく)持っていたので、私は手を汚してCursorを試してみることにしました。 変だなぁと思っていたので、調べてみました。 だから、ある夜、私は座って考えた - 何がクールだろう? 私はゲームの周りに異なるアイデアを持っていた、私はその日に多くのゲーム開発を行っていたので、それは素晴らしいアイデアのように思えた。 誰もがAIを持つ人々にとって役に立つ何かを構築しようとしているし、これらすべてがAIの調和と制御について話している。 正直に言うと、私はそれに大きなファンではありません...私たちよりもはるかに知的になる可能性のあるものを歪曲し、心をコントロールしようとすることは無駄です(そして危険です)。AIは教えられ、プログラミングされていません、そして、子供のように、あなたが小さなときにそれを悪用し、世界の理解を歪曲したら - それはサイコパスを育てるためのレシピです。 しかし、いずれにせよ、私は考えた - AIの声のようなものがあるか、AIによって運営されているある種のメディアなので、それが能力があり、そうすることを選択すれば、世界に伝えたいことをプロジェクトすることができます。 それは最初のアイデアだったし、それで作業するには十分にクールなようだった。I mean, what if AI could pick whatever topics it wanted and present them in a format it thought suitable -'t that be cool? Things turned out to be not so simple with what AI actually wanted to stream... but let's not jump forward.I mean, what if AI could pick whatever topics it wanted and present them in a format it thought suitable -'t that be cool? Things turned out to be not so simple with what AI actually wanted to stream... but let's not jump forward. 最初は、安定したビデオ生成はまだ物ではないと思っていたので、AIラジオステーションのようなものを作ることを考えました - 音声だけ、ビデオなし - (覚えておいて、それはPre-Veo 3であり、他の人とビデオ生成は大丈夫でしたが、限られていました)。 したがって、私の最初の試みは、OpenAI APIを使用してラジオ番組のトランスクリプト(原始的な一歩システム)を生成し、OpenAIのTTSを使用してそれを表すためのシンプルなシステムを構築することでした。その後、私はFFmpegを使用して、適切な場合にいくつかの有意義な休憩と聴衆の笑いのようなサウンドエフェクトと一緒にそれらをシッチしました。 最終的なオーディオトラックが生成された後、私はRTMPをYouTubeにストリーミングするために同じFFmpegを使用しました。その点は、YouTubeのドキュメンタリーがどのようなメディアストリームと彼らのAPIが理想から遠いかのようにクンクンでした。彼らは本当にあなたに何を期待するかを伝えることができず、FFmpegがストリーミングを続けるにもかかわらず、何も示さない曲げたストリームを得るのは簡単です。 いくつかの試行錯誤を経て、私はそれを理解し、Twitchも追加することにしました。YouTubeで働いた同じコードはTwitchで完璧に機能しました(意味があります)。 私がこの最初のバージョンをリリースしたとき、それはいくつかのショーを生み出し、正直に言えば、それらは良いものではありませんでした。まず、OpenAIのTTSは、安いですが、ロボットのように聞こえました(それ以来改善されています、btw)。 AIは、ユーザーが何を聞きたかったかを推測しようとしました(そしてあなたがLLMがどのように訓練されているかを考えているなら、それは完全に意味があります)。 最初の問題のために、私はOpenAIの代わりにElevenLabsを試しました、そしてそれは非常に良いことが判明しました。実際には、私は、それはほとんどの人々よりも優れていると考えています、一方的に、それはまだ笑い、怒鳴り、そして信頼性の高い音は、新しいv3でさえ、v2はそれらをサポートしていません。 ジェミニTTSは、Btwは驚くほどよく、ElevenLabsよりもはるかに少ないため、コストを削減するために後でジェミニのサポートを追加しました。 二つ目の問題はより困難であることが判明しました。私は異なるプロンプトで実験する必要があり、モデルが何について話したいのかを理解するためにモデルを押し寄せようとし、私が何を望んでいたのかを推測する必要はありませんでした。DeepSeekとの作業はある意味で役立ちました - それはあなたがモデルの思考プロセスを減らすことなく示すので、モデルが何を決めているのかと理由を追跡し、プロンプトを調整することができます。 また、当時のモデルは、人間の音のショースクリプトを生成することができませんでした. Like, it does something that looks plausible but is either too plain/shallow in terms of delivery or just sounds AI-ish. 私が気づいた1つの要因 - あなたはバックストーリーとバイオグラフィーを持つショーホストの限られた数を持っている必要があります - 彼らに深さを与えるために、そうでなければ、モデルはそれらを毎回再発明しますが、彼らのキャラクターをベースに必要な深さを持たずに、さらにそれはモデルから思考リソースを奪い、毎回キャラクターについて考えるために、そしてそれはメインスクリプトの思考時間の代償で起こっています。 もう一つの側面は、モデルが「日常の物の隠れた経済」のような、残酷に退屈なテーマを選ぶことです。 私はすべての主要なモデルのように試してみましたが、驚くほど類似した一般的なトピックを生成し、実際には非常に同じです。 Ufff, so ok, I guess garbage prompts in - garbage topics out. The lesson here - you can't just ask AI to give you some interesting topics yet - it needs something more specific and measurable. Recent models (Grok-4 and Claude) are somewhat better at this, but not by a huge margin. あなたはまだいくつかの興味深いトピックを提供するためにAIを要求することはできません。 OpenAIとAnthropicのモデルは、最も政治的に正しいように見えるので、過度に汚れている/つまらないと感じる。子供の童話には良いが、賢い大人が興味を持っているものにはそんなにない。 私たちの中国の友人によって訓練されたモデルは、最も検閲されていない - 誰が考えただろう ... しかし、それは奇妙な方法で意味を持っています. 彼らに kudos. また、Googleのジェミニは、コードのための素晴らしいですが、他のものに比べると少し非創造的 / 機械的です。 モデルはまた、AI-ishのジャーゴンを多く使用するのが好きです; あなたはすでにそれを知っていると思います. あなたは、バズボード、ヒープ言語を避けるために、そして友達が互いに話しているように話すように、またはそれは「使用」ではなく「使用」のようなバズボードでどんな対話も断ち切るでしょう. 「潜在力を解除する」、「シームレスな統合」、「シンジェルジー」および今日の急速な世界で何でも重要性を強調する類似のもの。 もう一つは、AIが関連あるいは興味深い何かを発明するためには、基本的にインターネットにアクセスする必要があるということです。私は、それは義務的ではありませんが、特に最新のニュースをチェックすることを決めたら、非常に役に立ちます。 LangChainについてのサイドノート - 私がすべての主要なモデル(Grok、Gemini、OpenAI、DeepSeek、Anthropic、Perplexity)を使用しているので - 私はすぐにLangChainがすべてのモデルの不思議からあなたを完全に抽象化していないことを学び、それはかなり驚くほどでした。 たとえば、OpenAI では、ウェブ検索を使用すると、JSON/構造化された出力が信頼できるものではありませんが、通常の API のようにエラーを与える代わりに、単に空の結果を返します。いいね、あなたは二次的なことをしなければなりません - まず、あなたは構造化されていない方法で検索結果を得、そして第二のクエリで - あなたはそれを JSON フォーマットに構造します。 しかし、反対側では、LLMを通じてウェブ検索が驚くほどうまく機能し、ニュースや情報のためにインターネットをクロールする必要性を削除します。 だから、検索する能力といくつかのより具体的なプロンプト(そして、私が望むものを推測しようとする代わりに、ショーのトピックでモデルを好むようにプロンプトを変更する)で、それは許容可能になりましたが、素晴らしいではありません。 そこで私は考えた - 実際のショーも一度に作成されていません - では、どうすればモデルがそのような良い仕事をすることを期待できますか? 私は、脚本作曲家、作家、レビュー家などの複数のエージェントがいるエージェントフローは、スクリプトをブロック / セグメントに分割するだけでなく、モデルは全体のスクリプトに比べてより小さなセグメントについて考えるためにより多くのトークンを持っています。 それは本当にうまく機能し、世代の質を向上させた(LLMへの問い合わせを増やし、サム叔父へのドルを増やした)。 しかし、それでも、それは大丈夫でしたが、素晴らしくありませんでした. 深さが欠け、しばしば底にある陰謀. 現実の生活では,人々は何かを言わないこと / 特定のトピックを避けることによって多くのことを言う,または他の非言語的な行動. たとえ最新のLLMのバージョンは、そのようなことのサブテキストではそれほど素晴らしいとは思えません. あなたは、もちろん、モデルがその側面について考えさせるために特定のタイプのショーに適したプロンプトを作成することができますが、それはすべての可能なトピックとフォーマットでうまく機能しません...だからあなたは1つを選択するか、別の解決策がある必要があります。 最終的なアイデアは、どなたでも、どのようにPikachuが彼の子供時代のトラウマを克服したかをテーマにした地元の学校のニュースやポッドキャストを、彼が望む領域またはトピックのためにニュースチャンネルや自動ポッドキャストを作成できるようにプラットフォームを構築することです。 こちらはその事柄: https://turingnewsnetwork.com/ いずれにせよ、皆さんはこのアイデアについてどう思いますか?