Apabila saya kembali ke Amerika Syarikat pada bulan Mei tahun ini, saya mempunyai beberapa masa bebas dari perjalanan dan kerja (akhirnya), jadi saya memutuskan untuk mendapatkan tangan saya kotor dan cuba Cursor. Hampir semua orang di sekeliling sedang bercakap tentang pengkodean vibe, dan beberapa rakan-rakan saya (yang tidak mempunyai apa-apa kaitan dengan teknologi) tiba-tiba bertukar kepada pengkodean vibe untuk startups. Aneh, saya fikir saya perlu semak. Jadi, satu malam saya duduk dan berfikir - apa yang boleh dibina? saya mempunyai idea yang berbeza di sekitar permainan, kerana saya biasa melakukan banyak pembangunan permainan pada hari itu, dan ia kelihatan seperti idea yang hebat. Semua orang cuba membina sesuatu yang berguna untuk orang dengan AI, dan terdapat semua ini bercakap tentang penyelarasan dan mengawal AI. Untuk jujur, saya bukan penggemar besar itu... Mencuba untuk memutar dan mengawal minda sesuatu yang berpotensi akan jauh lebih pintar daripada kita adalah sia-sia (dan berbahaya). AI diajar, bukan diprogram, dan, seperti kanak-kanak, jika anda menyalahgunakannya ketika kecil dan memutarkan pemahaman dunia - itulah resepi untuk membesarkan psikopat. Tetapi bagaimanapun, saya berfikir - adakah terdapat sesuatu seperti suara AI, sejenis media yang dikendalikan oleh AI supaya ia boleh, jika ia mampu dan memilih demikian, merancang kepada dunia apa yang mempunyai untuk dikatakan. Saya bermaksud, bagaimana jika AI boleh memilih apa-apa topik yang dikehendaki dan memaparkan mereka dalam format yang dianggap sesuai - bukankah itu keren? Awalnya, saya berfikir untuk membina sesuatu seperti stesen radio AI - hanya suara, tidak ada video - kerana saya fikir pengeluaran video yang stabil bukanlah satu perkara (ingatlah, ia adalah pra-Veo 3, dan pengeluaran video dengan orang lain tidak apa-apa tetapi terhad). Jadi, percubaan pertama saya ialah untuk membina sistem yang mudah yang menggunakan OpenAI API untuk menghasilkan transkrip acara radio (sistem satu langkah yang primitif) dan menggunakan TTS dari OpenAI untuk mengucapkannya.Selepas itu, saya menggunakan FFmpeg untuk mengikat mereka bersama-sama dengan beberapa istirahat yang bermakna di mana ia sesuai dan beberapa kesan bunyi seperti ketawa penonton. Sebaik sahaja laluan audio akhir dihasilkan, saya menggunakan FFmpeg yang sama untuk mengalir melalui RTMP ke YouTube. Yang sedikit bermasalah, kerana dokumentasi YouTube mengenai apa jenis aliran media dan API mereka jauh daripada ideal. Mereka tidak benar-benar memberitahu anda apa yang boleh diharapkan, dan ia mudah untuk mendapatkan aliran menggeleng yang tidak menunjukkan apa-apa, walaupun FFmpeg terus mengalir. Melalui beberapa percubaan dan kesilapan, saya menyedari dan memutuskan untuk menambah Twitch juga. kod yang sama yang bekerja untuk YouTube berfungsi untuk Twitch dengan sempurna (yang bermakna). Jadi, setiap kali saya memulakan aliran di latar belakang, ia akan menghasilkan aliran di YouTube melalui API dan kemudian menghantar aliran RTMP ke alamatnya. Apabila saya melancarkan versi pertama ini, ia menghasilkan beberapa persembahan dan, untuk jujur, mereka tidak baik. Tidak baik sama sekali. Pertama - TTS OpenAI, walaupun murah - terdengar robot (ia telah meningkat sejak itu, btw). Ternyata tanpa arah apa-apa, AI cuba menebak apa yang pengguna mahu dengar (dan jika anda berfikir tentang bagaimana LLMs dilatih, itu masuk akal). Untuk masalah pertama, saya cuba ElevenLabs alih-alih OpenAI, dan ia terbukti sangat baik. jadi baik, sebenarnya, saya fikir ia lebih baik daripada kebanyakan manusia, dengan satu nota sisi bahawa ia masih tidak boleh membuat ketawa, gemetar, dan bunyi seperti itu dengan boleh dipercayai, walaupun dengan v3 baru, dan v2 bahkan tidak menyokong mereka. Bummer, saya tahu, tetapi baik ... saya berharap mereka akan mengetahuinya segera. Gemini TTS, btw, melakukannya dengan sangat baik dan untuk lebih sedikit daripada ElevenLabs, jadi saya menambah sokongan Gemini kemudian untuk mengurangkan kos. Masalah kedua ternyata lebih sukar. saya terpaksa bereksperimen dengan prompts yang berbeza, cuba mendorong model untuk memahami apa yang ia mahu bercakap tentang, dan tidak menebak apa yang saya mahu. bekerja dengan DeepSeek membantu dalam satu cara - ia menunjukkan anda proses pemikiran model tanpa pengurangan, jadi anda boleh menjejaki apa model itu memutuskan dan mengapa, dan menyesuaikan prompt. Juga, tiada model pada masa itu boleh menghasilkan skrip pertunjukan yang berbunyi manusia. seperti itu, ia melakukan sesuatu yang kelihatan boleh dipercayai tetapi sama ada terlalu mudah / teruk dalam hal penghantaran atau hanya terdengar AI-ish. Satu faktor yang saya sedar - anda mesti mempunyai bilangan terhad tuan-rumah pertunjukan dengan latar belakang dan biografi - untuk memberi mereka kedalaman. jika tidak, model akan mencipta semula mereka setiap kali, tetapi tanpa kedalaman yang diperlukan untuk membina watak mereka dari, ditambah ia mengambil beberapa sumber pemikiran daripada model untuk berfikir tentang watak-watak setiap kali, dan itu berlaku kepada kos masa pemikiran skrip utama. Sisi lain adalah bahawa model itu memilih topik yang sangat membosankan, seperti "The Hidden Economy of Everyday Objects." Saya cuba seperti semua model utama dan mereka menghasilkan topik generik yang serupa, seperti yang sama sebenarnya. Ufff, jadi ok, saya kira sampah memandu dalam - topik sampah keluar. pelajaran di sini - anda tidak boleh hanya meminta AI untuk memberi anda beberapa topik yang menarik tetapi - ia memerlukan sesuatu yang lebih spesifik dan boleh diukur. model baru-baru ini (Grok-4 dan Claude) agak lebih baik dalam hal ini, tetapi tidak oleh margin yang besar. Dan terdapat censorship. model OpenAI dan Anthropic kelihatan paling benar secara politik, dan oleh itu, rasa berlebihan / membosankan. Baik untuk dongeng kanak-kanak, tidak begitu untuk apa-apa yang orang dewasa pintar akan berminat. Grok agak lebih baik dan berani memilih topik yang kontroversial dan pedas, dan DeepSeek adalah yang paling kurang disenaraikan (kecuali anda peduli tentang sejarah Cina). Model yang dilatih oleh rakan-rakan Cina kami adalah yang paling kurang disensor - siapa yang akan berfikir ... tetapi ia bermakna dengan cara yang pelik. Well, kudos kepada mereka. Juga, Google Gemini adalah hebat untuk kod, tetapi terdengar agak tidak kreatif / mekanikal berbanding dengan yang lain. Model-model juga suka menggunakan banyak jargon AI-ish; Saya rasa anda sudah tahu itu. anda perlu memberitahu secara khusus untuk mengelakkan kata-kata buzzword, bahasa hype, dan bercakap seperti rakan-rakan bercakap dengan satu sama lain atau ia akan menjejaskan sebarang dialog dengan kata-kata buzzword seperti "leveage" (bukan "penggunaan"), "membuka potensi", "integrasi yang lancar", "synergy", dan perkara-perkara serupa yang menekankan kepentingan apa-apa dalam dunia yang pesat hari ini ... Siapa yang mengajar mereka perkara-perkara ini? Perkara lain ialah, bagi AI untuk datang dengan sesuatu yang relevan atau menarik, ia pada asasnya mesti mempunyai akses ke internet.Saya bermaksud, ia tidak wajib, tetapi ia membantu banyak, terutamanya jika ia memutuskan untuk memeriksa berita terkini, betul? Nota sampingan mengenai LangChain - kerana saya menggunakan semua model utama (Grok, Gemini, OpenAI, DeepSeek, Anthropic, dan Perplexity) - saya dengan cepat belajar bahawa LangChain tidak mengabstrak anda sepenuhnya daripada keanehan setiap model, dan itu agak mengejutkan. Sebagai contoh, dalam OpenAI, jika anda menggunakan carian web, ia tidak akan menghasilkan output JSON / terstruktur secara boleh dipercayai. Tetapi bukannya memberikan kesilapan seperti API biasa, ia hanya mengembalikan hasil kosong. Baik. Jadi, anda perlu melakukan perkara dua laluan - pertama, anda mendapat hasil carian dengan cara yang tidak terstruktur, dan kemudian dengan pertanyaan kedua - anda mengstrukturkannya ke dalam format JSON. Tetapi di sisi lain, carian web melalui LLM berfungsi dengan sangat baik dan menghilangkan keperluan untuk menelusuri Internet untuk berita atau maklumat sama sekali. Benar, jadi dengan keupayaan untuk mencari dan beberapa prompt yang lebih spesifik (dan mengubah prompt untuk mendorong model untuk keutamaannya pada topik pameran alih-alih cuba menebak apa yang saya mahu), ia menjadi boleh diterima, tetapi tidak hebat. Kemudian saya fikir, baik - pertunjukan sebenar juga tidak dicipta dalam satu langkah - jadi, bagaimana saya boleh mengharapkan model untuk melakukan kerja yang baik seperti itu? saya fikir aliran agensi, di mana terdapat beberapa agen seperti pencipta skrip, penulis, dan peninjau, akan melakukan trik, serta membahagikan skrip kepada kepingan / segmen, jadi model mempunyai lebih banyak token untuk berfikir tentang segmen yang lebih kecil berbanding skrip keseluruhan. Itu benar-benar berfungsi dengan baik dan meningkatkan kualiti generasi (dengan kos lebih banyak pertanyaan kepada LLM dan lebih banyak dolar kepada Paman Sam). Tetapi masih, ia baik-baik sahaja, tetapi tidak hebat. Kekurangan kedalaman dan seringnya plot yang mendasari. Dalam kehidupan sebenar, orang mengatakan banyak dengan tidak mengatakan sesuatu / mengelakkan topik tertentu, atau tingkah laku nonverbal lain. Anda boleh, tentu saja, membuat prompt disesuaikan untuk jenis pertunjukan tertentu untuk membuat model berfikir tentang aspek itu, tetapi ia tidak akan berfungsi dengan baik di semua topik dan format yang mungkin ... jadi anda boleh memilih satu atau terdapat penyelesaian lain. Idea akhir adalah untuk membina platform supaya sesiapa sahaja boleh mencipta saluran berita atau podcast automatik untuk apa-apa kawasan / topik yang mereka mahu, sama ada berita sekolah tempatan atau podcast yang didedikasikan kepada bagaimana Pikachu mengatasi trauma masa kecilnya. Berikut ialah perkara: https://turingnewsnetwork.com/ Apa pendapat anda mengenai keseluruhan idea ini, kawan-kawan?