Кога се вратив во САД во мај оваа година, имав малку слободно време од патување и работа (на крајот), па решив да ги ставам рацете валкани и да го пробам Курсор. Чудно, помислив, морам да го проверам тоа. Значи, една вечер седнав и помислив - што би било кул да се изгради?Имав различни идеи околу игрите, бидејќи навистина правев многу развој на игри во текот на денот, и изгледаше како одлична идеја. Секој се обидува да изгради нешто корисно за луѓето со АИ, и има сето ова зборува за усогласување и контрола на АИ. Да бидам искрен, не сум голем обожавател на тоа... Обидувањето да се искриви и контрола на умот нешто што потенцијално ќе биде многу поинтелигентно од нас е залудно (и опасно). Но, сепак, помислив - дали постои нешто како глас на АИ, некој вид на медиум кој е управуван од страна на АИ, така што може, ако е способен и така избира, да проектира на светот она што има да каже. Мислам, што ако вештачката интелигенција би можела да ги одбере сите теми што сака и да ги презентира во формат што го смета за соодветен - не би било тоа кул? Првично, помислив да изградам нешто како радио станица за АИ - само глас, без видео - бидејќи мислев дека стабилната видео генерација сè уште не е нешто (сетете се, тоа беше пре-Veo 3, а видео генерацијата со други беше во ред, но ограничена). Значи, мојот прв обид беше да изградам едноставен систем кој користи OpenAI API за да генерира транскрипт на радио емисија (примитивен систем со еден чекор) и да го користам TTS од OpenAI за да го изговорам. Откако беше генериран конечниот аудио трек, го користев истиот FFmpeg за да го пренесувам преку RTMP на YouTube. Тоа беше малку, бидејќи документацијата на YouTube околу каков вид на медиумски проток и нивните APIs е далеку од идеален. Тие навистина не ви кажуваат што да очекувате, и лесно е да добиете флексибилен проток кој не покажува ништо, дури и ако FFmpeg продолжува да пренесува. Поради некои обиди и грешки, го сфатив тоа и одлучив да го додадам и Twitch. Истиот код што работеше за YouTube совршено работеше за Twitch (што има смисла). Значи, секој пат кога ќе започнам ток на задниот крај, тој ќе генерира ток на YouTube преку API и потоа ќе го испрати RTMP протокот на неговата адреса. Кога ја лансирав оваа прва верзија, таа произведе некои емисии и, да бидам искрен, тие не беа добри. Не добро воопшто. Прво - TTS на OpenAI, иако евтино - звучеше роботски (се подобри од тогаш, btw). Излезе без никаква насока, АИ се обиде да погоди што сакаше корисникот да го слушне (и ако размислите за тоа како се обучуваат LLMs, тоа има целосен смисла). За првиот проблем, јас се обидов ElevenLabs наместо OpenAI, и се покажа дека е многу добар. Така добро, всушност, мислам дека е подобар од повеќето луѓе, со една странична забелешка дека сè уште не може да се смее, громоглаво, и звучи како тоа сигурно, дури и со нови v3, а v2 дури и не ги поддржува. Беммер, знам, но добро... Се надевам дека наскоро ќе го дознаат. Gemini TTS, btw, го прави тоа изненадувачки добро и за многу помалку од ElevenLabs, па подоцна додадов поддршка на Gemini за да ги намалам трошоците. Вториот проблем се покажа дека е многу потешко. морав да експериментирам со различни повици, обидувајќи се да го намалам моделот за да разберам за што сака да зборува, а не да погодам што сакав. Работата со DeepSeek помогна во еден смисъл - ви го покажува процесот на размислување на моделот без намалувања, така што можете да го следите она што моделот одлучува и зошто, и да го прилагодите повикот. Исто така, ниту еден модел во тоа време не можел да произведе сценарија за шоуто со хумано звучење.На пример, прави нешто што изгледа веројатно, но е или премногу едноставно во однос на испораката или само звучи AI-ish. Еден фактор што го сфатив - мора да имате ограничен број на претстави со позадина и биографија - за да им дадете длабочина. во спротивно, моделот ќе ги измислува секој пат, но без потребната длабочина за да го базираат нивниот карактер, плус тоа одзема некои ресурси за размислување од моделот за да размислува за ликовите секој пат, и тоа се случува на сметка на размислувањето време на главниот сценарио. Друга страна е тоа што моделот избира теми кои се само брутално здодевни, како што е "Скриената економија на секојдневните предмети." Јас се обидов како сите големи модели и тие генерираат изненадувачки слични генерички теми, како многу исти, всушност. Уфф, така што е во ред, претпоставувам дека отпадот повикува во - отпадот теми надвор. лекцијата тука - не можете само да побарате од АИ да ви даде некои интересни теми се уште - тоа треба нешто поконкретно и измеримо. И постои цензура. моделите на OpenAI и Anthropic се чини дека се најполитички коректни, и затоа се чувствуваат преполни / здодевни. Добро за бајки за деца, не така за нешто што интелигентен возрасен би бил заинтересиран. Grok е малку подобар и се осмелува да избира контроверзни и зачинети теми, а DeepSeek е најмалку цензуриран (освен ако не се грижите за кинеската историја). Модел обучен од нашите кинески пријатели е најмалку цензуриран - кој би помислил ... но тоа има смисла на чуден начин. Моделите, исто така, сакаат да користат многу AI-ish жаргон; Мислам дека веќе го знаете тоа.Морате конкретно да го кажете за да избегнете бузи, хипе јазик и да разговарате како пријатели да разговараат едни со други или тоа ќе го намали секој дијалог со бузи како "левер" (наместо "користење"), "ослободете го потенцијалот", "бескорисна интеграција", "синергија" и слични работи кои ја нагласуваат важноста на сè во денешниот брз свет ... Кој ги научи овие работи? Друга работа е, за AI да излезе со нешто релевантно или интересно, во основа мора да има пристап до интернет. Мислам, тоа не е задолжително, но тоа помага многу, особено ако одлучи да ги провери најновите вести, нели? Странична забелешка за LangChain - бидејќи ги користев сите главни модели (Grok, Gemini, OpenAI, DeepSeek, Anthropic и Perplexity) - брзо научив дека LangChain не ве апстрахира целосно од чудата на секој модел, и тоа беше прилично изненадувачки. На пример, во OpenAI, ако користите веб-барање, тоа нема да генерира JSON / структуриран излез на сигурен начин. Но, наместо да даде грешка како што би направиле нормалните APIs, тоа само враќа празни резултати. Добро. Значи, треба да направите две-пасочна работа - прво, ќе ги добиете резултатите од пребарувањето на неструктуриран начин, а потоа со второ барање - ќе го структурирате во JSON формат. Но, од друга страна, веб пребарувањето преку LLMs работи изненадувачки добро и ја елиминира потребата да се пребарувате на интернет за вести или информации воопшто. Права, па со способноста да се пребаруваат и некои поконкретни повици (и модифицирање на повикот за да се предизвика моделот за неговите преференции на шоу теми наместо да се обиде да погоди што сакам), стана толерантно, но не и одлично. Тогаш помислив, добро - вистинските емисии, исто така, не се креирани во еден чекор - па како можам да очекувам модел да направи таква добра работа? Мислев дека агентскиот тек, каде што има неколку агенти како сценарио композитор, писател и рецензент, ќе го направи трикот, како и поделба на сценариото во парчиња / сегменти, така што моделот има повеќе токени за да размислува за помал сегмент во споредба со целиот сценарио. Тоа навистина функционираше добро и го подобри квалитетот на генерацијата (на цена на повеќе барања за LLM и повеќе долари за чичко Сам). Но, сепак, тоа беше во ред, но не е одлично. Недостаток на длабочина и често се потпира на заговор. Во реалниот живот, луѓето велат толку многу не велејќи нешто / избегнување на одредени теми, или друго невербално однесување. Дури и најновите LLM верзии се чини дека не е толку одлично со подтекстот на такви работи. Можете, се разбира, да креирате повик прилагоден за одреден тип на шоу за моделот да размисли за тој аспект, но тоа нема да работи добро во сите можни теми и формати ... па или ќе изберете едно или мора да има друго решение. Конечната идеја е да се изгради платформа за секој да може да создаде новински канал или автоматски подкаст за која било област / тема што сакаат, било да е тоа локална училишна вест или подкаст посветен на тоа како Пикачу ја надмина својата детска траума. Еве го тоа нешто: https://turingnewsnetwork.com/ Што мислите за целата идеја, момци?