Жаңа тарих

Google OpenAI-ді алда деп ойлап, алдады (ол емес)

бойынша 11m2024/12/25

Тым ұзақ; Оқу

Google агенттік ағындарды құру үшін арзан, жылдам және жоғары қабілетті үлгіні шығарды.

featured image - Google OpenAI-ді алда деп ойлап, алдады (ол емес)

Пластикалық әсер етуші. AI Fanboy. Картон сарапшысы. Қазіргі лексиконға енген барлық терминдер AI айналасындағы «хайп» толқынын сипаттайды. Мен көптен бері GenAI сахнасындағы кейбір оғаш және үлкен талаптарға күмәнмен қарайтынмын.

1/ Бағдарламашылар жоғалады

2/ AGI 2024 жылы келеді

3/ Барлық жұмыстар автоматтандырылады

4/ Роботтар саналы болады (Skynet)

Бұл негізсіз гиперболаның бәрі тіпті экстремистік көзқарастарға бармай-ақ (3,4 миллион мүшесі бар Reddit форумының бірегейлігі бар)

Мені әсіресе компьютерлік алгоритмдерге эмоциялар мен қиялдың проекциясы керемет нәрселер жасауға қабілетті. Сіз мені серіктес қолданбадан таба алмайсыз және мен Skynet-тің AI санасын қабылдауына жазылған көптеген тамаша адамдар өздерінің ақыл-ойын жоғалту қаупі бар деп ойлаймын.

Менің соңғы блогтарым AI әлемінің негізгі және біршама фантастикалық көзқарасына қайшы келеді 👇

AI күші бар дауыстық чат: шошқадағы ерін далабы (маусым 2024)

Осы API интерфейстерінің барлығы дыбысты мәтінге түрлендіру, оны тіл үлгісі арқылы өңдеу, содан кейін оны қайтадан дыбысқа түрлендіру болып табылады. Бұл сырттай күрделі болып көрінуі мүмкін, бірақ оның астында робот дауысындағы негізгі мәтінді құру ғана. Әрбір жеке жүйе жан-жақты және ақылға қонымды жетілген, бірақ олардың барлығын біздің нақыл шошқаға жабыстырыңыз және аудио өзара әрекеттесулердің нюанстары туралы нақты түсінік жоқ.

Шошқаға ұқсаса, шошқадай шырылдап, шошқадай жүреді. Бұл шошқа. Ерін далабы жағып жүрсе де.

Генеративті AI: жаңғақтарды балғамен жару (2024 жылғы шілде)

Жетістікке жету үшін кедергі ешқашан соншалықты төмен болған емес, өйткені бәсекелестік алгоритммен және оның белсенді емес және сарапсыз шеберімен барған сайын артып келеді.

Робот ешқашан шынайы тәжірибеге жете алмайды, өйткені краудсорсинг үшін шынайы сарапшылардың жеткілікті деректер жинағы ешқашан болмайды. Ал краудсорсинг ең жақсы нәтижені емес, орташа нәтижені алады. Робот ойламайды. Қайталайды.

Agentic Frameworks өтірігі (2024 ж. желтоқсан)

Функционалдылықты абстракциялауға мүмкіндік беретін құралды немесе құрылымды қамтамасыз ету мәселесі оның болжамдар жиынтығымен бірге келуі болып табылады. Мен балға сатып алғанда, ол жұмыс істейді деп ойлаймын. Мен қысымды тазартқышты сатып алғанда, ол жұмыс істейді деп ойлаймын.

Мәселе мынада, мен фреймворкті пайдаланған кезде, ол жұмыс істейді деп ойлаймын. Бірақ бұл негізгі технологияның жетілгендігін ескере отырып, мүлдем мүмкін емес. Agentic Frameworks асырап алуды көбейтпей-ақ, әдеттегі пайдаланушының қолында ешқашан жұмыс істемейтін жоғары бақыланатын демонстрациялар мен шектеулі пайдалану жағдайларының үстіне иллюзияны сатады (және миллиондаған…).

Бұл алғы сөз бір ойды жеткізу.

Мен мұны оңай айтпаймын десем, сеніңіз.

Google-дың Gemini 2.0 жарқылымен жасаған әрекеті бәрін өзгертті. Барлығы.

Оның келе жатқанын ешкім көрмеді.

Пейзаж

Менің ата-анамның ең жақсы көретін әңгімелерінің бірі - мені 5 жасымда жергілікті туған күн спектакліне қалай қосқаным. Ағаш ретінде құйылған, менің рөлім дыбыссыз түсірілім алаңын безендіру болды, ал үлкенірек және қабілетті балалар Иса Мәсіхтің туылуын түсіндірді.

Мен бұл кішігірім рөлге аса риза болмадым.

Келесі 10-15 минут ішінде мені сахнадан сүйреп әкеткенше, мен әртістердің сахнада жүріп, олардың сызықтарын ұрлап, пьеса туралы өзімнің түсіндірмесін жасадым.

Керемет сәттерде араласу, басқаларда өнер көрсету. Бұл үзілістің шеберлік сабағы болды және қарап тұрған көпшіліктің күлкілері мен жас көздері мені одан да көп нәрсеге итермеледі. Бұл аяусыз жойылу болды.

Спектакль фарсқа түсті, көрермендер күліп жылады; актерлар абыржып, абдырап қалды.

Күлкі мені жігерлендірді, бұл кресцендоға айналды.

Пьеса пантомимаға айналды, жұмыс аяқталды. Бұл әлі күнге дейін отбасының жаңа және жас мүшелеріне кешкі ас кезінде айтылатын ертегі болып қала береді.

Әрине, бұл ерекше ойын ашық AIs Рождествоның 12 күні және Google олардың күн күркіреуін ұрлап қана қоймай, әңгімені бұйырды, назар аудартты және OpenAI-ден Рождество мерекесін қысқы қорқынышқа айналдырды.

Мен, (көптеген ұтымды адамдар сияқты) OpenAI арқылы Рождествоның 12 күнін жақсы дәрежеде скептицизммен қабылдадым және олардың телефон қоңыраулары мен астрономиялық қымбат және баяу API қоңырауларын аз ғана жақсартылған LLM үлгісіне көрсетуін көрдім және осыған сенімді болдым. менің дүниетанымдық көзқарасым расталды.

Сосын бірдеңе болды.

Бұл тамаша театрландырылған уақытпен фондық жағдайда болды; жер сілкінісі сияқты зардаптар келеді және оларды барлығы сезінеді және әрбір өнімде көрінеді.

Мен Google допты AI-ға түсірді деп ойладым, бәріміз солай еттік. Олар барлық практикалық қолдануда маңызды емес еді. Сапасы нашар, функционалдығы шектеулі болды.

Олар допты тастамаған, жұмыста ұйықтамаған екен. Олар GenAI-ді өндірісте тиімді пайдалану үшін қажетті құрал-жабдықтарды үнсіз құрастыра отырып, бета шығарылымдарымен, әрең жұмыс істейтін API интерфейстерімен және ауқымды мәселелермен күресу үшін жарыстан (қазіргі балаларды салыстыру үшін) кетіп қалды.

Бір апта бұрын менде тіпті тірі Google API кілті болған жоқ.

Осы аптада мен қызметтерімнің әрқайсысын көшіру процесінде жүрмін.

Бұл бөртпе болып көрінуі мүмкін, бірақ түсіндіруге рұқсат етіңіз.

Ғалымдар мен құрылысшылар

Дәл қазір AI әлемінде екі түрлі фракция бар; ғалымдар мен құрылысшылар.

Пионерлер мен ғалымдар AGI және жаңа пайдалану жағдайларын іздейді; бұл қатерлі ісіктерді емдеудің жаңа тәсілдері немесе кванттық физикадағы академиялық жетістіктерді іздеу сияқты маңызды жұмыс. Бұл теориялық немесе тіпті кейбір жағдайларда практикалық пайдалану жағдайларының кейбір жасыл өсінділері болуы мүмкін, әсіресе робототехника саласында.

Бұл адамдар AGI-ге ұмтылуға және GenAI-ді интеллекттің гибридті түріне бейімдеуге мүдделі, ол қазіргі LLM-ге қарағанда пайдалылықты экспоненциалды түрде арттырады. Бұл жылдар қажет болуы мүмкін, ұрпақтар қажет болуы мүмкін (мүмкін!).

Мен нық және ұялмай екінші фракциядамын; біз құрылысшылармыз.

GenAI қазірдің өзінде керемет нәрселерге қабілетті. Бір-екі жыл бұрын мүмкін болмайтын нәрселер. Мен дәл қазір жұмыс істейтін нәрсені құрғым келеді.

Қолөнер және жұмыс қол жетімді LLM және API интерфейстерімен жұмыс істейді және біз қандай пайдалану жағдайларын жүзеге асыра алатынымызды көреді.

Құрылысшыға құралдар қажет және менің стек қол жетімді барлық API интерфейстері мен үлгілерінің утилитасын сынауға жұмсалған сансыз сағаттардан алынды.

1/ Клод 3.5 Кодтауға арналған сонет (код)

2/ Құрылымдық деректерді негіздеуге арналған OpenAI API интерфейстері (агенттер)

3/ Groq / Fireworks AI API интерфейстері арзан және жылдам қорытынды жасауға арналған (жеке қоңыраулар)

4/ Жергілікті/құрылғы үшін лама (Edge computing)

Менің базаларымның көпшілігі алдағы 3-5 жылда қамтылады деп ойладым.

Мүмкін бір сәтте мен OpenAI үлгілерін арзанырақ баламаға ауыстыра аламын, бірақ қорытынды құны менің масштабымда бәрібір проблема емес. Шынымды айтсам, мені жоғарыда көрсетілмеген GenAI үлгісі қызықтырған жоқ, тіпті Gemini Flash v2.0 нұсқасына да назар аудармадым.

Мен қазір назар аударамын.

Агенттер қалай жұмыс істейді

2025 жыл Агенттер жылы екенін бәріміз білеміз, бұл туралы әлеуметтік желілер бізге айтуды тоқтатпайды.

Мен хайп пойыздарын жек көремін, бірақ негізгі шындық мынада: AI жүйелері негізінен біздің атымыздан «жартылай сенімді» әрекет жасауға қабілетті. Осылайша, 2025 жылы осы парадигманы пайдаланатын танымал бағдарламалық жасақтама көп болады деп айту әділетті.

Әдеттегі агенттік ағын осылай жүреді.

Біз нұсқау аламыз (Ұшуды брондау, анама қоңырау шалу, таңғы асымды дайындау) оны сұрау арқылы түсіндіреді. Сұрау әдетте API арқылы орындалады, демек, OpenAI немесе Groq немесе Fireworks AI API). Бұл шақыру нәтижені алатын құралды (Skyscanner, Веб іздеу) шақырады және әзірлеуші мен кейбір кодты орнатуды шақырады және «нәрсе» жасайды. Осы «заттың» нәтижесі басқа шақыруға қайтарылады және біз әрекетті орындағанша цикл жалғасады (nJumps). Ура.

Бұл ең таза архитектура сияқты емес пе?

Осы API қоңырауларының кез келгені сәтсіз болса немесе күтпеген нәтижені қайтарса, бүкіл тізбек үзіледі. Бұл мәселені абстракциялау үшін ондаған Python Frameworks пайда болды, бірақ олар оны шеше алмайды. Құрал-саймандар жақсаруда, біз енді орындаудағы қателерді көре аламыз, құрылымдық деректерді тексере аламыз және сенімділікке жақындаған нәрсемен тізбектер жасай аламыз, демек, Агент 2025 үшін шулы.

Бірақ жоғарыда аталған архитектура күрделі, күрделі және сенімсіз болып қала береді. Осыған қарамастан, бұл агенттік ағындардағы GenAI әлеуетін ашудың жалғыз жолы.

2024 жылдың желтоқсанында Google жоғарыда аталған агенттік модельді ол барлық жерде қолданылмай тұрып ескірді.

Негізгі себептер келесідей:

1/ Жергілікті іздеу

2/ Біріктірілген оркестр

3/ Мульти-модальды (бұл жұмыс істейді!)

1. Google және OpenAI және Perplexity (Негізгі құралдар)

https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool

Gemini API құжаттарын оқып шығыңыз және бұл ұсыныс немесе қиял емес, бірақ жұмыс істейтін және миллисекундтарда нәтиже бере алатын API екенін есте сақтаңыз.

Google біріктірілген іздеуі сенімді және тез жұмыс істейді. Perplexity сияқты бәсекелестердің мәтінге негізделген AI іздеу жүйесі бар, оның кең пейзажда өз орны бар, бірақ негізгі құндылық ұсынысы енді Gemini Flash v2.0 нұсқасының «ерекшелігі» ретінде біріктірілгенін есте сақтаңыз.

Күрделі AI мақсаты мен пайда болу себебі басқа салаларда да ауқымды пайдалылықпен бірдей сапалы және нәтиже жылдамдығына қабілетті нақты AI моделінде қабылданған.

Google-дың меншікті Search API-ге ие болуы бұл жерде өте маңызды. Олардың API қоңырауына кейбір мәтінді қосу арқылы қол жетімді интернеттен іздеуге болатын қорытынды үлгісіне қызмет ететін бірдей API ішіне жинақталған «Түптік құрал» бар. А, бірақ OpenAI мұны да жасай алады, мен сіздің айтқаныңызды естідім бе?

OpenAI бәсекелесе алмайды. Олардың ізденісі жергілікті емес (немесе жетілмеген) және бұл маңызды. Бұл шынымен көрсетеді. Оларда «Нақты уақыттағы API» бар, бірақ ол соншалықты жақсы жұмыс істемейді және Google Gemini Flash v2.0 енгізуіне қарағанда айтарлықтай баяу және қателеседі. Нақты уақытта кез келген басқа доменге қарағанда кешіктіру - бәрі. Нәтижелер тіпті жақын емес.

Модель жауап беріп жатқанда Google іздеу сұрауын сөзбе-сөз іске қосады және жауапты оқымас бұрын жауапты қамтамасыз ететін инфрақұрылымы бар. Бұл шағын деталь өзара әрекеттесу тәжірибесін «Шошқадағы ерін далабы» ойынынан «нағыз патша мәмілесіне» өзгертетін маңызды миллисекундтарды қамтиды.

Google-дың біріктірілген іздеуі жұмыс істейді және ол шынымен де жылдам жұмыс істейді.

AI әлемінде ешкімнің шұңқыры жоқ екендігі туралы көптеген әңгіме.

Google жаңа ғана Рождество қуанышымен алып шұңқырды толтырып, көпірді тартып алды.

Баға, жылдамдық, сапа… Екі таңдау керек пе? Ммм...

Google үш көрсеткіш бойынша жеңіске жетті.

Рождество мерекесімен OpenAI.

2. Google және Python Frameworks (агенттік ағындар)

Бірақ мұнымен тоқтап қалмайды. Google ойынды агенттік ағындар тұрғысынан өзгертті. Интернетте «AI құралдары» үшін іздеңіз және сіз негізінен бірдей нәрсені жасайтын көптеген құрылымдарды, кодтық реполарды және жобаларды таба аласыз.

Интернетте іздеу; Тексеру.

Scape веб-сайты; тексеру

Белгілеуге түрлендіру; тексеру.

Іске қосу коды; тексеру.

Кейбір жеке деректерді алу; тексеру.

Бұл құралдардың барлығы іздеуді, іздеуді және кодты орындауды автоматтандыру болып табылады. https://python.langchain.com/docs/integrations/tools/

Мәселе мынада, Google мұны жоғарыда айтылғандардың барлығын өңдеуге арналған жалғыз соңғы нүкте болып табылатын API-ге біріктірді. Бұл қазір түбегейлі шешілген мәселе.

Көптеген пайдалану жағдайлары үшін бізге енді күрделі агенттік ағындар қажет емес.

OpenAI ұсынған төмендегі диаграмма агенттер үшін функцияны шақыру қалай жұмыс істейтінін көрсетеді.

Осы уақытқа дейін бізде GenAI API-ден тыс орындау ортасы бар.

Google бұл функциялардың көпшілігін әзірлеушілер пайдалана алатын негізгі API ішіне ендірді.

Мысалы, интернетте іздеу үшін Llama 3.3 қолданбасын пайдаланғым келсе, құралды шақыруды төмендегідей орындай аламын.

Gemini Flash v2.0 нұсқасымен бірдей ағын:

Алдыңғы нүктеге оралу, Жылдамдық, сапа, құн…

Google тек үшеуін таңдады.

Барлық дерлік құралдар іздеу, іздеу (белгілеуге түрлендіру және шақыруға енгізу) және жеке деректерді шашырату арқылы еркін кодты орындаудың нұсқалары болып табылады. Деректерді қоспағанда (жақында дерлік…), бұл көптеген агенттік жүйелерді іске қосудан бұрын ескірген негізгі мәселелер.

Бізде Google деректер көздеріне жергілікті плагиндер (қисынды келесі қадам) болғанға дейін көп уақыт өтпейді, бұл кезде сирек кездесетін бірнеше масштабты және өте күрделі AI жүйелерін қоспағанда, негізінен барлық ағымдағы құрылымдар мен процестер жай ғана біріктірілген енгізулер болып табылады. бір API қоңырауында жақсырақ, жылдамырақ және арзанырақ нәрсеге қол жеткізуге болады.

Архитектуралық тұрғыдан бұл өзектілігі, тізбекті және күрделі ағындарды салудың орнына, мен бір қарапайым үлгіні нақтылай аламын. Барлығы әлдеқайда қарапайым болды.

Bye bye Python жақтаулары. (байланыста болмаңыз).

Біз дәл қазір қажеттінің бәрін жасай алмасақ та, құмдағы сызық сызылған және «құралдар» провайдерлер API интерфейстеріне біріктірілген негізгі мәселелерге айналады. Бізге енді өз агенттерімізді жасаудың қажеті жоқ, бізде сенімді, ауқымды және жылдам API интерфейстері бар.

3. Көп модальды жұмыстар

Мен сияқты, сіз Аудио/Бейне пайдаланудың барлық мультимодальды «демо» интеграциясынан біраз күйіп қалған шығарсыз. Аудио ағынын қолданып көруге қатты қуанғаным есімде (мен WebRTC-те жылдар бойы дамып келемін және өткен өмірімде электрондық коммерция бейне ағынының құралын құрдым).

Әлеует анық, бірақ бәрі дұрыс емес. Мысалы, OpenAI ойын алаңына өтіп, олардың нақты уақыттағы API интерфейсін қолданып көріңіз. Бұл әлеуетті көрсетеді, бірақ жағымды пайдаланушы тәжірибесі болудан миль қашықтықта. Көптеген пайдаланушылар (және мен 100-дермен сөйлестім) жай ғана «жұмыс істейтін» тәжірибені қалайды. Сол миллисекундтар мен табиғи интонациялар бөлшектер емес, олар өнімнің мәні.

Gemini Flash v2.0 – кодтау үшін Клодты алғаш рет қолдана бастаған кездегі маған «уау» сәтін сыйлаған алғашқы модель. Бұл ChatGPT-ке бірінші рет күмәнмен сұрақ қойған кездегідей сезім және «машина» сізге адами жауап берді.

Кідіріс, үзілістер, дауыс интонациясы. Google оны ШЫҚТЫ. Бұл әлі де AI жүйесі екені анық, бірақ бұл ешқашан проблема болған емес. Мәселе әрқашан үзілістер, үзілістер, модельдің адамдармен әрекеттесуі болды.

Мен машинамен сөйлесуге қарсы емеспін, өйткені машина білімді, өзара әрекеттесуге қабілетті және маған қажет нәрселерді жасай алады. Бұл тәжірибені қамтамасыз ете алатын модельді 100% бірінші рет көріп тұрмын және оның салдары өте зор.

Егер сізді аудио немесе бейне өзара әрекеттесу қызықтырса және модельдерге біраз күмәнмен қарасаңыз. Gemini Flash v2.0 нұсқасын қолданып көріңіз. Google кідіріс пен құн мәселелерін шешуге уақытты, күш пен ресурстарды жұмсағаны анық. Мен қолданып көрген басқа AI моделі тіпті жақындамайды.

Және бұл арзан…

Және ол масштабталады…

Қорытынды

Мен ChatGPT-тен осы жылдар бұрын linkedin жазбасын жазуды бірінші рет сұрағанымдай қатты қуандым. Менің өмірімнің және GenAI-ге қатысуымның осы кезеңінде бұл оңай емес.

Мен бұл сәттің мұншалықты тез келеді деп күтпеген едім.

Бізде қазір нақты уақытта әрекеттесе алатын арзан, жылдам және жоғары қабілетті моделі бар шындық бар.

Бұл менің өмірімде бірінші рет компьютермен сөйлесіп, оның мені түсінетінін, маған жауап беретінін және менің атымнан әрекет жасай алатынын сезінуім. Бұл күрделі агент емес, бұл жалғыз API шақыруы.

Бұл көптеген адамдар әлі түсінбесе де, AI әлемінде қайталанатын техникалық жетістік.

Табиғи интерфейс пен өзара әрекеттесуден басқа, модель интернеттен жергілікті іздеуге, кодты орындауға және сөйлем құруға кететін уақыт ішінде маған жауап беруге қабілетті.

Генеративті AI UX болатын арман болды.

2024 жылдың желтоқсанында бұл шындыққа айналды.

Енді кешірім сұрасаңыз, мен құрылысқа барамын.

L O A D I N G
. . . comments & more!