Kad es šogad maijā atgriezos ASV, man bija brīvs laiks no ceļošanas un darba (beidzot), tāpēc es nolēmu, ka manas rokas ir netīras un izmēģiniet Cursor. Gandrīz visi apkārt runāja par vibe kodēšanu, un daži no maniem draugiem (kam nebija nekāda sakara ar tehnoloģijām) pēkšņi bija pārvērsušies par vibe kodētājiem jaunuzņēmumiem. Dīvaini, es domāju, man tas ir jāpārbauda. Tātad, vienu vakaru es sēdēju un domāju - kas būtu foršs, lai izveidotu? man bija dažādas idejas par spēlēm, jo es tobrīd darīju daudz spēļu izstrādes, un tas likās kā lieliska ideja. Ikviens cenšas izveidot kaut ko noderīgu cilvēkiem ar AI, un tur ir viss, kas runā par AI saskaņošanu un kontroli. Godīgi sakot, es neesmu liels fanu... Mēģināt izkropļot un kontrolēt kaut ko, kas potenciāli būs daudz gudrāks nekā mēs, ir veltīgi (un bīstami). AI tiek mācīts, nevis programmēts, un, tāpat kā bērnam, ja jūs to ļaunprātīgi izmantojat, kad esat mazs un izkropļojat viņa izpratni par pasauli - tā ir recepte, lai audzinātu psihopātu. Bet jebkurā gadījumā, es domāju - vai ir kaut kas tāds kā AI balss, kāda veida plašsaziņas līdzeklis, ko vada AI, lai tas varētu, ja tas spēj un izvēlas to darīt, projektēt pasaulei to, kas tam ir teikt. Es domāju, ko tad, ja AI varētu izvēlēties jebkuru tēmu, ko tā gribēja, un prezentēt tos formātā, ko tā uzskatīja par piemērotu - vai tas nebūtu forši? Sākotnēji es domāju par kaut ko līdzīgu AI radio stacijai - tikai balss, ne video - jo es domāju, ka stabila video ģenerācija vēl nav lieta (atcerieties, tas bija pre-Veo 3, un video ģenerācija ar citiem bija labi, bet ierobežota). Tātad, mans pirmais mēģinājums bija izveidot vienkāršu sistēmu, kas izmanto OpenAI API, lai ģenerētu radio šovu transkriptu (primitīvu vienreizēju sistēmu) un izmantotu TTS no OpenAI, lai to pārrunātu. Pēc tam, kad tika ģenerēts pēdējais audio kanāls, es izmantoju to pašu FFmpeg, lai straumētu pār RTMP uz YouTube. Tas bija mazliet kluss, jo YouTube dokumentācija par to, kāda veida plašsaziņas līdzekļu straumēšana un to API ir tālu no ideāla. Pēc dažiem izmēģinājumiem un kļūdām es to sapratu un nolēmu pievienot arī Twitch. Tas pats kods, kas darbojās YouTube, darbojās Twitch perfekti (kas ir jēga). Tātad, katru reizi, kad es sākšu straumu uz aizmugures, tas izraisīs straumu YouTube caur API un pēc tam nosūtīs RTMP straumu uz tās adresi. Kad es uzsāku šo pirmo versiju, tas radīja dažus šovus un, godīgi sakot, tie nebija labi. Izrādījās, bez jebkāda virziena, AI mēģināja uzminēt, ko lietotājs gribēja dzirdēt (un, ja jūs domājat par to, kā tiek apmācīti LLM, tas ir pilnīgi jēga). Pirmajai problēmai es izmēģināju ElevenLabs, nevis OpenAI, un tas izrādījās ļoti labs. Tātad, patiesībā, es domāju, ka tas ir labāks par lielāko daļu cilvēku, vienā pusē atzīmējot, ka tas joprojām nevar izdarīt smiekli, kliedzieni un skaņas tāpat uzticami, pat ar jauno v3, un v2 pat tos neatbalsta. Bummer, es zinu, bet labi ... es ceru, ka viņi to uzzinās drīz. Gemini TTS, btw, dara to pārsteidzoši labi un par daudz mazāk nekā ElevenLabs, tāpēc es pievienoju Gemini atbalstu vēlāk, lai samazinātu izmaksas. Otrā problēma izrādījās daudz sarežģītāka. man bija jāeksperimentē ar dažādiem uzaicinājumiem, cenšoties nospiest modeli, lai saprastu, par ko tas vēlas runāt, nevis uzminēt, ko es gribēju. Darbs ar DeepSeek palīdzēja zināmā nozīmē - tas parāda jums modeļa domāšanas procesu bez samazinājumiem, lai jūs varētu izsekot, ko modelis nolemj un kāpēc, un pielāgot uzaicinājumu. Tāpat neviens modelis tajā laikā nevarēja ražot cilvēka skaņas skriptu.Piemēram, tas dara kaut ko, kas izskatās ticams, bet ir vai nu pārāk vienkāršs / slinks piegādes ziņā, vai vienkārši izklausās AI-ish. Viens faktors, ko es sapratu - jums ir jābūt ierobežotam skaitam šovu saimnieku ar fonu un biogrāfiju, lai dotu viņiem dziļumu. pretējā gadījumā modelis tos katru reizi atkārtoti izgudros, bet bez nepieciešamā dziļuma, lai balstītu savu raksturu, kā arī tas aizņem dažus domāšanas resursus no modeļa, lai domātu par rakstzīmēm katru reizi, un tas notiek uz galveno skripta domāšanas laika rēķina. Vēl viena puse ir tāda, ka modelis izvēlas tēmas, kas ir vienkārši brutāli garlaicīgas, piemēram, "Ikdienas priekšmetu slēpta ekonomika." Es mēģināju tāpat kā visi lielākie modeļi, un tie rada pārsteidzoši līdzīgas ģenēriskās tēmas, piemēram, ļoti līdzīgas patiesībā. Ufff, tas ir labi, es domāju, ka atkritumu atkritumu tēmas. lekcija šeit - jūs nevarat vienkārši lūgt AI, lai dotu jums dažas interesantas tēmas vēl - tam ir nepieciešams kaut kas konkrētāks un izmērāms. nesenie modeļi (Grok-4 un Claude) ir nedaudz labāk par to, bet ne ar milzīgu maržu. Un tur ir cenzūra. OpenAI un Anthropic modeļi, šķiet, ir visvairāk politiski pareizi, un tāpēc jūtas pārspīlēti / garlaicīgi. Labs bērnu pasakas, ne tā par visu, ko inteliģents pieaugušais būtu ieinteresēts. Grok ir nedaudz labāks un uzdrošināsies izvēlēties pretrunīgas un pikantas tēmas, un DeepSeek ir vismazāk cenzēts (ja vien jums nav rūpes par ķīniešu vēsturi). Mūsu ķīniešu draugu apmācīts modelis ir vismazāk cenzēts - kas būtu domājis... bet tam ir jēga dīvainā veidā. Modeliem arī patīk izmantot daudz AI-ish žargona; es domāju, ka jūs to jau zināt. jums ir īpaši jāsaka, lai izvairītos no buzzwords, hype valoda, un runāt, piemēram, draugi runā viens ar otru, vai arī tas iznīcinās jebkuru dialogu ar buzzwords, piemēram, "līdzsvara" (nevis "izmantot"), "atbloķēt potenciālu", "nešaubīgu integrāciju", "sinerģiju", un līdzīgas lietas, kas uzsver nozīmi kaut ko šodienas strauji augošajā pasaulē ... Kas viņiem mācīja šīs lietas? Vēl viena lieta ir tāda, ka, lai AI varētu nākt klajā ar kaut ko atbilstošu vai interesantu, tai būtībā ir jābūt piekļuvei internetam. es domāju, tas nav obligāti, bet tas palīdz daudz, it īpaši, ja tas nolemj pārbaudīt jaunākās ziņas, vai ne? Blakus piezīme par LangChain - tā kā es izmantoju visus galvenos modeļus (Grok, Gemini, OpenAI, DeepSeek, Anthropic un Perplexity) - es ātri uzzināju, ka LangChain pilnībā neatspoguļo jūs no katra modeļa dīvainībām, un tas bija diezgan pārsteidzoši. Piemēram, OpenAI, ja jūs izmantojat tīmekļa meklēšanu, tas neradīs JSON / strukturētu izeju uzticami. Bet tā vietā, lai piešķirtu kļūdu, piemēram, normālos API, tas vienkārši atgriež tukšus rezultātus. Bet no otras puses, tīmekļa meklēšana caur LLM darbojas pārsteidzoši labi un novērš nepieciešamību pārmeklēt internetu, lai iegūtu ziņas vai informāciju kopumā. Pareizi, tāpēc ar iespēju meklēt un dažus konkrētākus uzaicinājumus (un mainot uzaicinājumu, lai izraisītu modeli pēc tā vēlmēm par šovu tēmām, nevis mēģinot uzminēt, ko es gribu), tas kļuva pieļaujams, bet ne liels. Tad es domāju, labi - reālie šovi arī netiek radīti vienā reizē - kā es varu sagaidīt, ka modelis dara tik labu darbu? es domāju, ka aģentu plūsma, kur ir vairāki aģenti, piemēram, skripta komponists, rakstnieks un recenzents, darītu triku, kā arī sadalītu skriptu gabalos / segmentos, tāpēc modelim ir vairāk žetonu, lai domātu par mazāku segmentu, salīdzinot ar visu skriptu. Tas patiešām strādāja labi un uzlaboja paaudzes kvalitāti (par vairāk pieprasījumu LLM un vairāk dolāru Strēlniekam Samam). Bet tomēr, tas bija labi, bet ne lieliski. Trūkst dziļumu un bieži pamata gabals. reālajā dzīvē, cilvēki saka tik daudz, nerunājot kaut ko / izvairoties no noteiktām tēmām, vai citu neverbālo uzvedību. pat jaunākās LLM versijas, šķiet, nav tik lieliski ar subtekstu šādas lietas. Jūs, protams, varat izveidot ielūgumu, kas pielāgots konkrētam šova tipam, lai modelis domātu par šo aspektu, bet tas nedarbosies labi visās iespējamajās tēmās un formātos ... tāpēc jūs izvēlaties vienu vai ir jābūt citam risinājumam. Galīgā ideja ir izveidot platformu, lai ikviens varētu izveidot ziņu kanālu vai automatizētu podcast par jebkuru jomu / tēmu, ko viņi vēlas, vai tas ir vietējais skolu ziņas vai podcast, kas veltīts tam, kā Pikachu pārvarēja viņa bērnības traumu. Šeit ir lieta: https://turingnewsnetwork.com/ Jebkurā gadījumā, ko jūs domājat par visu ideju, puiši?