Enfliyantè plastik. AI Fanboy. Ekspè nan bwat katon. Tout tèm k ap antre nan leksik modèn la pou dekri vag 'hype' ki antoure AI. Mwen te gen lontan yon ensèten nan kèk nan reklamasyon yo ki pi etranj ak grandiose nan sèn nan GenAI.
1/ Pwogramasyon yo pral disparèt
2/ AGI ap rive an 2024
3/ Tout travay yo pral otomatize
4/ Robo yo pral vin konsyan (Skynet)
Tout hyperbole sa a san fondman san yo pa menm fouye nan opinyon yo plis ekstremis (gen yon singularite fowòm Reddit ki gen 3.4 milyon manm)
Mwen patikilyèman bemused pa pwojeksyon an nan emosyon ak fantezi sou algoritm òdinatè ki kapab fè bagay fre. Ou p ap jwenn mwen sou yon aplikasyon konpayon, e mwen kwè ke anpil moun briyan ki abònman nan pèsepsyon Skynet sa a nan konsyans AI yo riske pèdi saniti yo.
Dènye blog mwen yo te an kontradiksyon ak endikap ak yon ti jan fantastik AI vizyon mond lan 👇
Tout API sa yo ap fè se konvèti odyo an tèks, trete li atravè yon modèl lang, ak Lè sa a, konvèti li tounen nan odyo. Li ta ka sanble sofistike sou sifas la men anba li se jis jenerasyon tèks debaz nan vwa yon robo. Chak sistèm endividyèl se konplè ak rezonab matirite, men kole yo tout ansanm sou kochon pwovèrb nou an epi pa gen okenn konpreyansyon reyèl sou nuans yo nan entèraksyon odyo.
Si li sanble yon kochon, squeals tankou yon kochon ak mache tankou yon kochon. Se yon kochon. Menm si li mete lipstick.
Baryè a pou ekselans pa janm te tèlman ba, paske konpetisyon an se de pli zan pli ak yon algorithm ak mèt ki pa angaje ak enekspè li yo.
Robo a p'ap janm rive jwenn vrè ekspètiz, paske p'ap janm gen yon seri done ase nan ekspè otantik pou crowdsource. Ak crowdsourcing pran rezilta an mwayèn, pa youn nan pi bon. Robo a pa panse. Li repete.
Pwoblèm nan bay yon zouti oswa yon fondasyon ki pèmèt ou abstrè fonksyonalite se ke li vini ak yon seri sipozisyon. Lè mwen achte yon mato, mwen sipoze li pral travay. Lè mwen achte yon pwodui netwayaj presyon, mwen sipoze li pral travay.
Pwoblèm lan se ke lè mwen itilize yon kad, mwen sipoze li pral travay. Men, sa a se byen literalman enposib bay matirite nan teknoloji ki kache. Byen lwen ogmante adopsyon, Agentic Frameworks ap vann yon ilizyon sou tèt demonstrasyon trè kontwole ak ka itilizasyon fini ki pa janm pral aktyèlman travay nan men itilizatè tipik la (e gen plizyè milyon ...).
Prefas sa a se fè yon pwen.
Kwè mwen lè mwen di ke mwen pa di sa alalejè.
Sa Google te fèk fè ak Gemini 2.0 flash te chanje absoliman tout bagay. Tout bagay.
Epi pèsonn pa t wè l ap vini.
Youn nan istwa pi renmen paran mwen yo se kòman lè m te gen 5 an, yo te bay mwen yon pati nan jwèt krèch lokal la. Mete kòm yon pye bwa, wòl mwen se te dekore seri a an silans pandan timoun ki pi gran yo ak plis kapasite yo te fè yon entèpretasyon sou nesans Jezikri.
Mwen pa te patikilyèman kontan ak wòl minè sa a.
Pandan 10-15 minit kap vini yo anvan yo te trennen m sou sèn nan, mwen te swiv jete sou sèn nan, vòlè liy yo ak loraj soti pwòp entèpretasyon mwen nan pyès teyat la.
Interjecting nan moman pafè, fè nan lòt moun. Se te yon masterclass de dezòd, ak chak ri ak dlo nan je nan foul moun yo ap gade te pouse m 'nan plis. Se te destriksyon san pitye.
Pèfòmans la desann nan fars, odyans lan kriye ak ri; aktè yo bemused ak konfonn.
Ri a ankouraje m ', li te vin yon crescendo.
Teyat la te konvèti nan pantomim, travay la fini. Jouk jounen jodi a, li rete yon istwa ki te di nan pati dine bay nouvo ak pi piti manm fanmi yo.
Natirèlman, jwèt sa a an patikilye se Open AI 12 jou nan Nwèl ak ki jan Google pa jis vòlè loraj yo, men kòmande naratif la, vòlè limyè a ak vire yon selebrasyon Nwèl soti nan OpenAI nan yon kochma sezon fredi.
Mwen menm (tankou pifò moun ki rasyonèl), mwen te branche sou 12 jou Nwèl la pa OpenAI ak yon bon degre dout, epi mwen te gade pandan y ap fè demonstrasyon apèl nan telefòn yo ak apèl API astronomikman chè ak ralanti nan yon modèl LLM majinalman amelyore, epi mwen te santi m rasire ke vi monn sinik mwen te valide.
Lè sa a, yon bagay te pase.
Li te rive nan background nan, ak distribisyon pafè teyat; tankou yon tranbleman tè konsekans yo ap vini epi yo pral santi yo pa tout moun ak wè nan chak pwodwi.
Mwen te panse Google te lage boul la sou AI, nou tout te fè. Yo te jis petinan nan tout itilizasyon pratik. Kalite te pòv, fonksyonalite te limite.
Li sanble ke yo pa t 'depoze boul la epi yo pa t' dòmi nan travay la. Yo t ap tou senpleman kite konpetisyon an (kounye a timoun yo pa konparezon) pou lite ak beta degaje, apèn fonksyone API ak pwoblèm echèl pandan y ap bati tou dousman zouti ki nesesè pou efektivman itilize GenAI nan pwodiksyon an.
Jiska yon semèn de sa mwen pa t 'menm gen yon ap viv Google API Key.
Semèn sa a, mwen nan pwosesis pou migre chak youn nan sèvis mwen yo.
Sa a ka sanble gratèl, men kite m 'eksplike.
Gen de faksyon diferan nan mond lan nan AI kounye a; syantis ak bòs mason.
Pyonye yo ak syantis yo ap chèche ka itilize AGI ak nouvo; sa a se travay enpòtan tankou nouvo apwòch nan tretman kansè oswa kap chèche avans akademik nan fizik kwantik. Sa a ka teyorik oswa menm nan kèk ka kèk lans vèt nan ka itilizasyon pratik, espesyalman nan domèn nan robotik pou egzanp.
Moun sa yo enterese nan pouswiv AGI ak adapte GenAI nan yon fòm entèlijans plis ibrid ki pral ogmante eksponansyèlman sèvis piblik sou LLMs aktyèl yo. Sa ka pran plizyè ane, sa ka pran jenerasyon (pwobableman!).
Mwen fèm ak san wont nan dezyèm faksyon an; nou se mason.
GenAI deja kapab fè bagay enkwayab. Bagay sa yo ke yon ane oswa de de sa ta enposib. Mwen vle konstwi bagay ki travay, kounye a.
Navèt ak travay nan men yo ap travay ak LLM ak API ki disponib epi wè ki ka itilizasyon nou ka aplike.
Yon mason bezwen zouti epi pile mwen an te sòti nan inonbrabl èdtan pase teste sèvis piblik tout API ak modèl ki disponib yo.
1/ Claude 3.5 Sonèt pou Kodaj (Kòd)
2/ OpenAI API pou rezònman done estriktire (Ajan)
3/ Groq / Fireworks AI API pou enferans bon mache ak enstantane (apèl endividyèl)
4/ Lama pou aparèy lokal/sou aparèy (Edge computing)
Mwen te panse ke pi fò nan baz mwen yo ta dwe kouvri pou pwochen 3-5 ane yo.
Potansyèlman nan kèk pwen mwen te kapab chanje soti modèl OpenAI yo pou yon altènatif pi bon mache, men pri enferans se pa reyèlman yon pwoblèm pou mwen nan echèl mwen an de tout fason. Yo dwe onèt, mwen pa te reyèlman enterese nan nenpòt modèl GenAI ki pa te nan lis pi wo a, mwen pa t 'menm peye atansyon sou Gemini Flash v2.0 la.
Mwen fè atansyon kounye a.
Nou tout konnen ke 2025 se ane Ajan yo, rezo sosyal yo pap sispann di nou.
Mwen rayi tren battage men verite ki kache a se ke sistèm AI yo kounye a se fondamantalman kapab 'semi-fyab' pran aksyon sou non nou. Kidonk, li jis pou di ke pral gen anpil lojisyèl popilè ki te pibliye an 2025 ki pral sèvi ak paradigm sa a.
Yon koule ajan tipik ale yon bagay tankou sa a.
Nou resevwa yon enstriksyon (Rezève yon vòl, rele maman mwen, fè manje maten mwen) ki entèprete pa yon èd memwa. Yon èd memwa anjeneral egzekite atravè API, kidonk OpenAI ou oswa Groq oswa Fireworks AI API). Èd memwa sa a rele yon zouti (Skyscanner, rechèch entènèt) ki jwenn rezilta a epi ki rele kèk konfigirasyon kòd pa pwomotè a epi fè "bagay". Lè sa a, rezilta a nan "bagay" sa a retounen nan yon lòt èd memwa ak sik la ap kontinye (nJumps) jiskaske nou te fè aksyon an. Hurra.
Li pa sanble achitekti ki pi pwòp la fè li?
Si nenpòt nan apèl API sa yo echwe oswa retounen yon rezilta inatandi, tout chèn lan kase. Plizyè douzèn Python Frameworks te parèt pou abstrè pwoblèm sa a, men yo pa ka rezoud li. Zouti yo ap amelyore, kounye a nou ka wè erè nan ekzekisyon, valide done estriktire ak bati chenn ak yon bagay ki apwoche fyab, pakonsekan battage a pou Ajan 2025.
Men, achitekti ki anwo a rete konplike, konplèks ak enfidèl. Malgre sa, li se tou sèl fason nou te gen pou déblotché potansyèl GenAI nan koule Agentic.
Nan mwa desanm 2024, Google fèk fè modèl ajans ki anwo a demode anvan menm li vin omniprésente.
Rezon prensipal yo se jan sa a:
1/ rechèch natif natal
2/ Òkestrasyon entegre
3/ Multi-modal (ki travay!)
https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool
Fè yon li nan dokiman API Gemini, epi sonje ke sa a se pa yon pwopozisyon oswa yon fantasy, men yon API ki travay epi ki ka bay rezilta nan milisgond.
Rechèch entegre Google la serye epi tou li travay byen vit. Rival tankou Perplexity gen yon motè rechèch AI ki baze sou tèks, li gen plas li nan peyizaj la pi laj men kenbe nan tèt ou pwopozisyon valè debaz la kounye a te entegre kòm yon 'karakteristik' nan Gemini Flash v2.0.
Objektif Perplexity AI ak rezon pou egzistans yo te sipoze nan yon modèl AI aktyèl ki kapab menm kalite ak vitès rezilta ak sèvis piblik masiv nan lòt zòn tou.
Lefèt ke Google posede yon API rechèch propriétaires se kritik isit la. Yo gen yon "Native Zouti", fourni nan menm API sèvi modèl la enferans ki ka fè rechèch sou entènèt la disponib pa jis ajoute kèk tèks nan apèl la API. Ah, men OpenAI ka fè sa tou mwen tande ou di?
OpenAI pa ka fè konpetisyon. Rechèch yo pa natif natal (oswa pa matirite) e sa enpòtan. Li vrèman montre. Yo gen yon "Realtime API", men li pa travay byen epi li se notables pi dousman ak buggier pase aplikasyon Google Gemini Flash v2.0. Nan tan reyèl plis pase nenpòt lòt domèn, latansi se tout bagay. Rezilta yo pa menm pre.
Google literalman kouri demann rechèch la PANDAN modèl la ap reponn epi li gen enfrastrikti pou bay repons lan anvan ou fin li repons lan. Ti detay sa a kouvri milisgond kritik yo ki chanje eksperyans nan entèraksyon soti nan "Lipstick sou yon kochon" nan "reyèl f ** king kontra a".
Rechèch entegre Google la ap travay, epi li travay vrèman byen vit.
Anpil pale nan mond AI a sou fason pèsonn pa gen yon fos.
Oke Google jis ranpli yon gwo twou ak Nwèl Joy ak rale pon levasyon an.
Pri, Vitès, Kalite... Chwazi de? Hmmmm…
Google ap genyen twa pwen.
Jwaye Nwèl OpenAI.
Men, li pa sispann la. Google te chanje jwèt la an tèm de koule Agentic. Chèche entènèt la pou "AI Tools" epi w ap jwenn mòn nan kad, repo kòd ak pwojè ki fondamantalman fè menm bagay la.
Rechèch Entènèt; Tcheke.
sit entènèt Scape; tcheke
Konvèti nan markdown; tcheke.
Kouri kòd; tcheke.
Chèche kèk done prive; tcheke.
Tout zouti sa yo ap otomatize rechèch, rekipere ak ekzekisyon kòd. https://python.langchain.com/docs/integrations/tools/
Bagay la se, Google jis entegre sa a nan API yo, yon pwen final sèl pou okipe tout sa ki anwo yo. Kounye a li se esansyèlman yon pwoblèm rezoud.
Nou pa bezwen koule ajan konplèks pou anpil anpil ka itilize.
Dyagram ki anba a nan OpenAI montre kouman apèl fonksyon travay pou Ajan yo.
Jiska kounye a, nou gen anviwònman egzekisyon an deyò GenAI API.
Google fèk konstwi pi fò nan fonksyonalite sa yo nan yon API debaz ki ka itilize pa devlopè yo.
Pou egzanp, si mwen vle itilize Llama 3.3 pou fè rechèch sou entènèt la, mwen ka fè apèl zouti jan sa a.
Sa a menm koule ak Gemini Flash v2.0:
Retounen nan pwen anvan an, Vitès, Kalite, Pri ...
Google jis chwazi tout 3.
Prèske tout zouti yo se varyasyon rechèch, rekiperasyon (konvèti nan markdown ak enjekte nan èd memwa) ak ekzekisyon kòd abitrè ak yon awozwa done prive. Eksepte done yo (prèske definitivman vini byento...), sa yo se kounye a enkyetid debaz, ki te fè yon anpil nan sistèm Agentic demode anvan yo te lanse.
Li p ap pran tan anvan nou gen tou grefon natif natal nan sous done Google ou yo (yon pwochen etap ki lojik), nan ki pwen eksepte pou yon ra kèk sistèm AI echèl ak trè konplèks, fondamantalman tout kad ak pwosesis aktyèl yo se jis aplikasyon konplike. nan sa ki ka reyalize pi byen, pi vit ak pi bon mache nan yon sèl apèl API.
Enpòtans sa a soti nan yon pwen de vi achitekti, se ke olye pou yo bati koule nan chenn ak konplèks, mwen ka rafine yon sèl modèl senp. Tout bagay jis te vin pi senp anpil.
Bye bye kad Python. (pa rete an kontak).
Menm si nou pa ka fè tout sa nou bezwen kounye a, liy sab la te trase ak "zouti" yo pral vin enkyetid debaz, entegre nan APIs pa founisè yo. Nou pa bezwen brikoleur pwòp ajan nou yo ankò, nou gen API serye, echèl ak rapid pou travay avèk yo.
Tankou m ', ou se pwobableman yon ti jan boule nan tout milti-modal 'démo' entegrasyon nan itilizasyon Audio/Videyo. Mwen sonje ke mwen te tèlman eksite eseye odyo-difizyon (mwen te devlope sou WebRTC pou ane ak nan yon lavi sot pase yo te fonde yon zouti eCommerce videyo difizyon).
Potansyèl la evidan, men tout bagay la jis pa santi bon. Pou yon egzanp ale nan lakou rekreyasyon OpenAI a epi eseye API an tan reyèl yo. Li montre potansyèl, men se kilomèt lwen ke yo te yon eksperyans itilizatè agreyab. Pifò itilizatè (e mwen te pale ak 100s), jis vle yon eksperyans ki "travay". Milisecond sa yo ak entonasyon natirèl yo pa detay, yo se sans nan pwodwi a anpil.
Gemini Flash v2.0 se premye modèl ki te ban mwen moman "wow" ke mwen te genyen lè mwen te kòmanse itilize Claude pou kodaj. Se menm santiman ak premye fwa ou te mande ChatGPT yon kesyon ak "machin" la ba ou yon repons imen.
Latansi a, poz yo, entonasyon vwa a. Google te kloure li. Li toujou evidamman yon sistèm AI, men sa pa t janm pwoblèm nan. Pwoblèm nan te toujou poz yo, entèripsyon yo, fason ke modèl la kominike ak moun.
Mwen pa gen pwoblèm pale ak yon machin, sipoze machin nan gen konesans, kapab kominike ak kapab fè bagay sa yo ke mwen bezwen li fè. Sa a se 100% premye fwa mwen te aktyèlman wè yon modèl ki kapab bay eksperyans sa a, ak konsekans yo se fòmidab.
Si ou te eksite pa entèraksyon odyo oswa videyo ak yon ti jan ensèten nan modèl yo. Ale eseye Gemini Flash v2.0. Google te evidamman envesti tan, efò ak resous nan rezoud pwoblèm sou latansi ak pri. Pa gen lòt modèl AI ke mwen te eseye menm vini fèmen.
Epi li bon mache...
Epi li évolutive...
Mwen kontan menm jan ak premye fwa mwen te mande ChatGPT pou yo ekri yon post linkedin tout ane sa yo de sa. Nan etap sa a nan lavi mwen ak patisipasyon ak GenAI, sa pa patikilyèman fasil.
Mwen pa t 'atann moman sa a rive tèlman bonè.
Nou kounye a gen yon reyalite ak yon modèl bon mache, rapid ak trè kapab ke nou ka kominike avèk an tan reyèl.
Sa a se literalman premye fwa nan lavi mwen ke mwen ka pale ak yon òdinatè, epi mwen santi tankou li konprann mwen, ka reponn mwen, epi pran aksyon sou non mwen. Se pa yon ajan konplèks, se yon sèl apèl API.
Sa a se yon reyalizasyon teknik ki pral reverberate atravè mond lan AI, menm si anpil moun poko reyalize.
Apa de koòdone natirèl la ak entèraksyon, modèl la se kapab natif natal rechèch entènèt la, egzekite kòd ak ban m 'repons nan tan li pran yo fòme yon fraz.
Te gen yon rèv ki te UX nan Jeneratif AI.
An Desanm 2024 li te vin yon reyalite.
Koulye a, si ou vle eskize m ', mwen ale nan bati bagay.