paint-brush
Què hi ha a continuació per a la IA: interpretar la visió del CEO antròpicper@learning2survive
721 lectures
721 lectures

Què hi ha a continuació per a la IA: interpretar la visió del CEO antròpic

per Vitalii Chukhlantcev6m2024/11/21
Read on Terminal Reader

Massa Llarg; Per llegir

El podcast de Lex Fridman amb líders d'IA antròpica va destacar les idees clau sobre el desenvolupament de la IA: Efectes d'escalada: encara no s'han fixat, però l'enfocament es canvia per comprendre quins aspectes cal escalar. La generació de dades sintètiques i les dades de protecció són prometedores. Seguretat de la IA: desenvolupament al costat del progrés del model. Riscos categoritzats en nivells d'ASL, amb ASL-3 (permet els malfactors) previst l'any vinent. Cronologia AGI: potencialment per al 2027, amb un progrés depenent del domini i taxes d'adopció específiques del sector. Interpretabilitat mecanicista: importància creixent per entendre i controlar el comportament del model. Les prediccions inclouen: 2025: Autoentrenament avançat d'IA, superant els humans en tasques específiques; augment del mal ús de la IA malgrat les garanties; aplicacions d'IA més autònomes, especialment en codificació. 2030: automillora generalitzada de la IA; IA incorporada més intel·ligent que els humans en dominis específics; integració generalitzada de la IA entre les indústries; possibles avenços científics ajudats per la IA. L'article posa èmfasi en el ritme ràpid del desenvolupament de la IA i la incertesa que envolta els seus impactes futurs.
featured image - Què hi ha a continuació per a la IA: interpretar la visió del CEO antròpic
Vitalii Chukhlantcev HackerNoon profile picture
0-item

Recentment, Lex Fridman va llançar un podcast de cinc hores amb Dario Amodei, Amanda Askell i Chris Olah d'Anthropic AI.


Després de publicar el seu article força llarg sobre la visió del desenvolupament de l'IA "Machines of Loving Grace" , Dario s'ha anat ampliant ja que, de la mateixa manera, va ser el focus principal de la seva conversa amb Lex amb altres membres d'Anthropic que s'ampliaven sobre aquests temes.


Anthropic' CEO article with the vision for AI

Per als menys nerds que jo, vaig pensar que seria bo resumir les idees clau que havia de compartir aquest equip líder d'IA. Des del llançament de Claude 3.5 Sonnet (Nou) aquesta tardor, és evident que el progrés d'Anthropic en LLM està a l'alçada del que ha aconseguit openAI amb el seu model de previsualització o1. Es troben entre els líders d'aquesta cursa d'IA, cosa que els dóna una bona autoritat sobre el tema.


A part de repetir el que ha dit l'equip antròpic, també m'agradaria fantasejar sobre el que cada punt implica per al futur de l'aplicació pràctica d'IA d'aquí a 1 any i d'aquí a 5 anys com a dues línies de temps importants. Espero equivocar-me amb les meves prediccions (semplement hi ha massa factors en joc), però crec que és divertit fer gimnàstica mental i mirar aquest text quan apareguem en aquest "futur real" pel que fa al temps.



  1. No sabem quan l'efecte d'escalada s'estendrà, però ENCARA NO

    Un dels punts clau per a mi va ser la seva perspectiva sobre els efectes futurs de continuar pel camí de la hipòtesi d'escala (la idea que llançar més i millors dades amb càlculs més capaços, per tant, farà que els models siguin més intel·ligents). Dario sembla donar a entendre que simplement utilitzar totes les tècniques antigues i afegir més dades potser ja no sigui molt eficaç per obtenir un impuls significatiu de la IA. L'objectiu principal dels laboratoris d'IA ara mateix és entendre quina part escalar.


    Algunes de les vies prometedores, segons la seva opinió, són la generació de dades sintètiques (aplicar l'enfocament AlphaGo a l'entrenament de prova i error per a tasques complexes) o afegir més dades de protecció, és a dir. donant als models exemples de bones respostes i de males respostes per a dominis específics perquè entengui les regles generals i les aplique una mica millor.


    • 2025 : l'enfocament d'autoentrenament AlphaGo AI serà més comú i els models superaran la capacitat humana en exercicis complexos addicionals que tenen un bucle de retroalimentació gairebé immediat (potser el comerç)

    • 2030 : l'enfocament d'autoformació d'AlphaGo es podria generalitzar en models de manera que es millorin en tasques pràctiques difícils quan se'ls doni el temps suficient per practicar la tasca.


      2. L'enfocament de la seguretat de la IA es desenvoluparà juntament amb el desenvolupament del model


    The current state of the art models (o1 & claude 3.5 sonnet) are ASL-2

L'autonomia i el mal ús suposen els majors riscos.

Dario afirma que el seu equip està provant tots dos riscos cada vegada que entrenen un model nou perquè puguin crear prevencions abans de llançar-lo.


ASL-1 (com un bot d'escacs): no comporta riscos

ASL-2 (models d'IA actuals): no proporciona molta informació arriscada més enllà de la que es pot buscar a Google.

ASL-3 (pot augmentar les capacitats dels malfactors): l'habilitació d'armes cibernètiques, nuclears i biològiques mitjançant aquests sistemes s'haurà de reduir seriosament abans que es puguin llançar models.

ASL-4+ (més intel·ligent que ASL-3 + autònom): encara no està clar com es controlaran, només es reduiran el risc quan hi hagi indicis d'aquest model després de l'entrenament.


  • 2025 - Dario espera ASL-3 l'any vinent. Crec que el mal ús humà d'aquests sistemes es produirà malgrat les baranes, ja que no serà possible detectar tots els errors abans del llançament (nous estafes o virus de programari).

  • 2030 : aplicacions robòtiques múltiples i capaces de la IA, com ara els robots Tesla Optimus , la IA s'incorporarà i serà molt més intel·ligent que un humà mitjà en dominis específics. Pot ser difícil prevenir completament l'ús indegut d'aquests sistemes complexos, especialment en els casos en què realitzen tasques mundanes per a actors criminals.


    3. L'AGI (o en paraules de Dario " poderosa IA ") pot arribar el 2027


    Repeteix diverses vegades que com esdevingui la intel·ligència intel·ligent dependrà del domini i que els bloquejadors del desenvolupament de la IA sembla que cessen contínuament. Lògicament, utilitzant correctament el contingut generat per humans, la capacitat de pensar dels humans hauria de ser replicada per la IA. Per analogia amb els ordinadors que juguen als escacs i AlphaGo, és evident que en tasques específiques la IA pot superar les habilitats humanes i com més documentat i rígid sigui aquest domini, més alt hauria de ser el rendiment. Per tant, el pitjor dels casos d'un eventual AGI és la IA de raonament a nivell humà que té capacitats excel·lents en camps específics on hem pogut avançar més en la seva formació.


    De la mateixa manera, l'aplicació real de la IA dependrà de fins a quin punt estigui la indústria específica dels desenvolupadors d'IA. És evident que els és més fàcil provar i adaptar nous models per ajudar a escriure codi que fer un bon ús d'aquests models en un entorn agrícola. Segons aquesta lògica, les TI/codificació, la ciència, les grans ciutats i només llavors les altres parts de l'economia haurien de sentir l'impacte de la IA, en aquest ordre.


    • 2025 : començarem a veure aplicacions d'IA més impressionants/autònomes, especialment en codificació, on els gestors de productes no tècnics poden realitzar projectes basats en codi sense demanar ajuda a un programador.

    • 2030 - Totes les empreses integraran la IA al seu flux de treball d'una manera o altra, els models de frontera haurien ajudat a nombrosos descobriments científics en camps com la biologia, la física i les matemàtiques.


    1. La interpretabilitat mecanicista esdevé més important per al desenvolupament coherent del model


    Els models es desenvolupen bastant ràpidament, però segueixen sent una caixa negra, no està clar per què funcionen bé i per què funcionen malament.

    Sovint, això vol dir que fer canvis/escalar aquests models condueix a al·lucinacions, accions imprevisibles o comportaments emergents que idealment els desenvolupadors voldrien entendre per endavant per fer millores controlades del model.


    Un mapa de les característiques a prop d'una funció "Conflicte interior", inclosos els grups relacionats amb l'equilibri d'equilibri, lluites romàntiques, lleialtats en conflicte i catch-22s.


    Anthropic dedica esforços a descriure el que realment passa dins de la "ment" del seu model Claude. Aquest enfocament, teòricament, hauria d'explicar per què Claude escupe certes respostes i com diferents mètodes d'entrenament ajuden als canvis en els patrons que es generen dins d'aquesta xarxa neuronal. A més, és senzillament divertit d'explorar.


    • 2025 - Una interpretació descriptiva més completa del model Claude, amb noves visualitzacions i detalls (publicats o no en funció de la sensibilitat que pugui ser aquesta informació per a l'avantatge competitiu d'Anthropic).


    • 2030 : si l'enfocament d'Anthropic té èxit, és possible que tots els principals laboratoris d'IA hagin generat un mapa intern dels seus sistemes d'IA (interpretat). Tanmateix, si aquest enfocament resulta massa descriptiu sense cap impacte real en el desenvolupament del model, ningú recordarà la interpretabilitat mecanicista el 2030...


Conclusió

Independentment de les prediccions, serà divertit observar la següent fase de la IA. I, si no hi ha cap revolució en 5 anys, almenys serà refrescant tornar a llegir aquest article, ja que finalment opto per cancel·lar la meva subscripció a OpenAI de 300 dòlars al mes.