Kiedy wróciłem do USA w maju tego roku, miałem trochę wolnego czasu od podróży i pracy (wreszcie), więc postanowiłem złamać ręce i spróbować Cursor. Niemal wszyscy wokół rozmawiali o kodowaniu wibracyjnym, a niektórzy z moich przyjaciół (którzy nie mieli nic wspólnego z technologią) nagle przekształcili się w kodery wibracyjne dla start-upów. To dziwne, pomyślałem, muszę to sprawdzić. Więc pewnego wieczoru usiadłem i pomyślałem - co byłoby fajne, aby zbudować? miałem różne pomysły na gry, ponieważ robiłem dużo rozwoju gier w ciągu dnia i wydawało mi się, że to świetny pomysł. Wszyscy próbują zbudować coś użytecznego dla ludzi z AI, a wszystko to mówi o dostosowaniu i kontrolowaniu AI. Szczerze mówiąc, nie jestem wielkim fanem tego... Próba zniekształcenia i kontroli umysłu nad czymś, co potencjalnie będzie o wiele bardziej inteligentne niż my, jest bezużyteczna (i niebezpieczna). sztuczna inteligencja jest nauczana, a nie zaprogramowana i, jak w przypadku dziecka, jeśli nadużyjesz jej, gdy jesteś mały i zniekształcisz jej zrozumienie świata - to jest przepis na wychowanie psychopata. Ale tak czy inaczej, pomyślałem – czy istnieje coś takiego jak głos sztucznej inteligencji, jakiś rodzaj mediów, które są zarządzane przez sztuczną inteligencję, aby mogła, jeśli jest zdolna i zdecyduje się na to, zaprojektować światu to, co ma do powiedzenia. Mam na myśli, co by było, gdyby AI mogła wybrać dowolne tematy i przedstawić je w formacie, który uznała za odpowiedni - nie byłoby to fajne? Początkowo myślałem, że zbuduję coś w rodzaju stacji radiowej AI - tylko głos, nie wideo - ponieważ myślałem, że stabilne generowanie wideo nie jest jeszcze rzeczą (pamiętaj, że było to pre-Veo 3, a generowanie wideo z innymi było w porządku, ale ograniczone). Tak więc, moja pierwsza próba polegała na zbudowaniu prostego systemu, który wykorzystuje OpenAI API do generowania transkrypcji programu radiowego (prymitywny system jednorazowy) i użyciu TTS z OpenAI, aby go przekazać.Po tym, użyłem FFmpeg, aby je ściągnąć wraz z pewnymi znaczącym przerwami, gdzie to właściwe, i pewnymi efektami dźwiękowymi, takimi jak śmiech publiczności. Po utworzeniu ostatniej ścieżki audio użyłem tego samego FFmpega do przesyłania strumieniowego przez RTMP do YouTube. To trochę było kłopotliwe, ponieważ dokumentacja YouTube wokół tego, jaki rodzaj strumienia mediów i ich API są odległe od ideału. Poprzez pewne próby i błędy, dowiedziałem się i postanowiłem dodać Twitch również. Ten sam kod, który działał dla YouTube pracował dla Twitch doskonale (co ma sens). Tak więc, za każdym razem, gdy zacznę strumień na backendzie, będzie rodzić strumień na YouTube za pośrednictwem API, a następnie wysłać strumień RTMP na jego adres. Kiedy uruchomiłem tę pierwszą wersję, wyprodukował kilka pokazów i, szczerze mówiąc, nie były one dobre.Nie w ogóle dobre.Po pierwsze - TTS OpenAI, choć tanie - brzmiało robotycznie (od tego czasu się poprawiło, btw). Okazało się, bez żadnego kierunku, AI próbował zgadnąć, co użytkownik chciał usłyszeć (i jeśli myślisz o tym, jak są szkolone LLM, to ma to sens). Dla pierwszego problemu spróbowałem ElevenLabs zamiast OpenAI i okazało się bardzo dobre. tak dobrze, w rzeczywistości, myślę, że jest to lepsze niż większość ludzi, z jedną stroną, że nadal nie może śmiać się, żartować i brzmieć tak niezawodnie, nawet z nowymi v3, a v2 ich nawet nie obsługuje. Gemini TTS, btw, robi to zaskakująco dobrze i za znacznie mniej niż ElevenLabs, więc dodałem wsparcie dla Gemini później, aby obniżyć koszty. Drugi problem okazał się o wiele trudniejszy. musiałem eksperymentować z różnymi wskazówkami, próbując popchnąć model, aby zrozumieć, o czym chce mówić, a nie zgadywać, czego chciałem. Podobnie, robi coś, co wydaje się prawdopodobne, ale jest albo zbyt proste / szalone pod względem dostarczania lub po prostu brzmi AI-ish. W przeciwnym razie model wymyśli je ponownie za każdym razem, ale bez wymaganej głębokości, aby oprzeć swoją postać, a ponadto zabiera trochę zasobów myślenia od modelu, aby myśleć o bohaterach za każdym razem, a to dzieje się kosztem czasu myślenia głównego scenariusza. Inną stroną jest to, że model wybiera tematy, które są po prostu brutalnie nudne, takie jak "Ukryta ekonomia codziennych przedmiotów". Próbowałem jak wszystkie główne modele i generują zaskakująco podobne ogólne tematy, jak bardzo to samo w rzeczywistości. Lekcja tutaj - nie możesz po prostu poprosić AI, aby jeszcze dała ci kilka ciekawych tematów - potrzebuje czegoś bardziej konkretnego i wymiernego. Ostatnie modele (Grok-4 i Claude) są nieco lepsze w tym, ale nie przez ogromny margines. A jest cenzura. Modele OpenAI i Anthropic wydają się być najbardziej politycznie poprawne, a zatem czują się przesadnie / nudne. Dobre dla bajek dla dzieci, nie tak dla wszystkiego, co interesuje inteligentnego dorosłego. Grok jest nieco lepszy i ośmiela się wybierać kontrowersyjne i pikantne tematy, a DeepSeek jest najmniej cenzurowany (chyba, że zależy ci na chińskiej historii). Model szkolony przez naszych chińskich przyjaciół jest najmniej cenzurowany - kto by pomyślał... ale ma to sens w dziwny sposób. Musisz to powiedzieć, aby uniknąć buzzwords, język hype, i rozmawiać, jak przyjaciele rozmawiają ze sobą lub to będzie nuke jakikolwiek dialog z buzzwords, takie jak "dźwignię" (zamiast "użycie"), "odblokować potencjał", "bezproblemowej integracji", "synergia", i podobne rzeczy, które podkreślają znaczenie czegokolwiek w dzisiejszym szybko rozwijającym się świecie ... Kto nauczył ich tych rzeczy? Inną rzeczą jest to, że aby sztuczna inteligencja wymyśliła coś istotnego lub interesującego, w zasadzie musi mieć dostęp do Internetu. Mam na myśli, że nie jest to obowiązkowe, ale pomaga to dużo, zwłaszcza jeśli zdecyduje się sprawdzić najnowsze wiadomości, prawda? Uwaga o LangChain - ponieważ używałem wszystkich głównych modeli (Grok, Gemini, OpenAI, DeepSeek, Anthropic i Perplexity) - szybko dowiedziałem się, że LangChain nie abstrahuje cię całkowicie od dziwów każdego modelu, a to było raczej zaskakujące. Na przykład w OpenAI, jeśli używasz wyszukiwania internetowego, nie będzie niezawodnie generować wyjścia JSON / strukturyzowanego. Ale zamiast dawać błąd jak normalne API, zwraca tylko puste wyniki. Ale z drugiej strony, wyszukiwanie stron internetowych za pośrednictwem LLM działa zaskakująco dobrze i usuwa potrzebę skanowania w Internecie po wiadomości lub informacje w ogóle. Właściwie, więc z możliwością wyszukiwania i niektórych bardziej konkretnych wskazówek (i modyfikacji wskazówki, aby wywołać model według jego preferencji na tematy pokazowe, zamiast próbować zgadywać, co chcę), stało się tolerowane, ale nie świetne. Wtedy pomyślałem, dobrze - prawdziwe pokazy również nie są tworzone na raz - więc jak mogę oczekiwać, że model wykona taką dobrą pracę? pomyślałem, że przepływ agentyczny, w którym jest kilka agentów, takich jak kompozytor scenariusza, pisarz i recenzent, zrobiłby sztuczkę, a także podzieliłby scenariusz na kawałki / segmenty, więc model ma więcej tokenów, aby myśleć o mniejszym segmencie w porównaniu do całego scenariusza. To naprawdę działało dobrze i poprawiło jakość generacji (na koszt więcej zapytań do LLM i więcej dolarów do wujka Sama). Ale nadal, to było w porządku, ale nie świetnie. Brak głębokości i często podstawowej fabuły. W prawdziwym życiu, ludzie mówią tak wiele, nie mówiąc coś / unikanie pewnych tematów, lub innych niewerbalnych zachowań. Możesz, oczywiście, stworzyć prośbę dostosowaną do określonego typu pokazu, aby model pomyślał o tym aspekcie, ale nie będzie działać dobrze we wszystkich możliwych tematach i formatach ... więc albo wybierzesz jedno, albo musi być inne rozwiązanie. Ostatecznym pomysłem jest zbudowanie platformy, dzięki której każdy może stworzyć kanał informacyjny lub zautomatyzowany podcast dla dowolnego obszaru / tematu, niezależnie od tego, czy jest to lokalna wiadomość szkolna, czy podcast poświęcony temu, jak Pikachu przezwyciężył swoją traumę z dzieciństwa. Oto ta rzecz: https://turingnewsnetwork.com/ A Wy co sądzicie o całej idei, panowie?