721 čtení

Co bude dál pro AI: Interpretace vize generálního ředitele společnosti Anthropic

podle Vitalii Chukhlantcev6m2024/11/21

NSO

Příliš dlouho; Číst

Podcast Lexe Fridmana s lídry Antropické umělé inteligence zdůraznil klíčové poznatky o vývoji umělé inteligence: Efekty škálování: Dosud nevyrovnané, ale zaměření se přesouvá na pochopení, které aspekty škálovat. Syntetické generování dat a data chráněná zábradlím jsou slibná. Bezpečnost umělé inteligence: Vývoj společně s pokrokem modelu. Rizika kategorizovaná do úrovní ASL, přičemž ASL-3 (umožňující pachatelům) se očekává příští rok. Časová osa AGI: Potenciálně do roku 2027, s pokrokem v závislosti na doméně a mírou přijetí v konkrétním odvětví. Mechanistická interpretovatelnost: Rostoucí význam pro pochopení a kontrolu chování modelu. Předpovědi zahrnují: 2025: Pokročilé samotrénování umělé inteligence, překonání lidí ve specifických úkolech; zvýšené zneužívání umělé inteligence navzdory zárukám; více autonomních aplikací AI, zejména v kódování. 2030: Generalized AI self-zlepšení; ztělesněná AI chytřejší než lidé ve specifických doménách; široká integrace umělé inteligence napříč odvětvími; potenciálních vědeckých průlomů podporovaných umělou inteligencí. Článek zdůrazňuje rychlé tempo vývoje umělé inteligence a nejistotu kolem jejích budoucích dopadů.

featured image - Co bude dál pro AI: Interpretace vize generálního ředitele společnosti Anthropic

Nedávno Lex Fridman vydal pětihodinový podcast s Dariem Amodei, Amandou Askell a Chrisem Olahem z Anthropic AI.

Poté, co Dario zveřejnil svůj docela dlouhý článek o vizi vývoje umělé inteligence „Machines of Loving Grace“ , Dario o ní rozšířil, protože to bylo také hlavním cílem jeho rozhovoru s Lexem s dalšími členy Anthropic, kteří se o těchto tématech rozšiřovali.

Pro ty méně praštěné než já jsem si myslel, že by bylo hezké shrnout klíčové myšlenky, o které se tento přední tým AI musel podělit. Od vydání Claude 3.5 Sonnet (New) letos na podzim je jasné, že pokrok Anthropic v LLM je srovnatelný s tím, čeho dosáhla openAI s jejich o1 preview modelem. Patří mezi lídry v této rase umělé inteligence, což jim dává dobrou autoritu v tomto tématu.

Kromě opakování toho, co řekl tým Anthropic, bych chtěl také fantazírovat o tom, co každý bod znamená pro budoucnost praktické aplikace umělé inteligence za 1 rok a za 5 let jako dvě důležité časové osy. Očekávám, že se ve svých předpovědích mýlím (ve hře je prostě příliš mnoho faktorů), ale myslím si, že je zábavné provádět mentální gymnastiku a dívat se na tento text, když se z časového hlediska objevíme v té „skutečné budoucnosti“.

Nevíme, kdy se efekt scale-up ustálí, ale ZATÍM NE
Jedním z klíčových poznatků pro mě byla jeho perspektiva budoucích dopadů pokračování cesty hypotézy škálování (myšlenka, že házení více, lepších dat s schopnějším výpočtem, učiní modely chytřejšími). Zdá se, že Dario naznačuje, že pouhé použití všech starých technik a přidávání dalších dat již nemusí být velmi efektivní při získávání významného posílení AI. Hlavním cílem laboratoří umělé inteligence je nyní porozumět tomu, kterou část je třeba škálovat.

Některé ze slibných cest z jeho pohledu jsou syntetické generování dat (aplikace přístupu AlphaGo na trénování metodou pokusu a omylu pro složité úkoly) nebo přidání dalších dat s ochranným zábradlím , tzn. uvedením modelů příkladů dobrých a špatných odpovědí pro konkrétní domény, aby porozuměl obecným pravidlům a o něco lépe je aplikoval.
- 2025 – samotréninkový přístup AlphaGo AI se stane běžnějším a modely předčí lidské schopnosti v dalších komplexních cvičeních, která mají téměř okamžitou zpětnou vazbu (možná obchodování)
- 2030 – přístup k autotréninku AlphaGo by mohl být zobecněn v modelech tak, aby se sami zdokonalovali v obtížných praktických úkolech, když jim bude poskytnut dostatek času na procvičení úkolu.
  
  2. Přístup k bezpečnosti umělé inteligence se bude vyvíjet spolu s vývojem modelu

Největší rizika představuje autonomie a zneužití.

Dario tvrdí, že jeho tým testuje obě rizika pokaždé, když trénuje nový model, aby mohli vytvořit prevenci před jeho uvolněním.

ASL-1 (jako šachový bot) - nepředstavuje rizika

ASL-2 (aktuální modely AI) - neposkytuje mnoho riskantních informací nad rámec toho, co lze jednoduše vygooglovat.

ASL-3 (může zvýšit schopnosti provinilců) – kybernetické, jaderné a biologické zbraně prostřednictvím těchto systémů budou muset být vážně posouzeny, než budou moci být modely vydány.

ASL-4+ (Chytřejší než ASL-3 + autonomní) - zatím není jasné, jak se budou ovládat, budou de-riskantní, až když se po tréninku objeví známky takového modelu.

2025 - Dario očekává ASL-3 příští rok. Věřím, že k lidskému zneužití těchto systémů dojde i přes zábradlí, protože nebude možné zachytit všechny chyby před vydáním (nové podvody nebo softwarové viry).
2030 – mnohonásobné a schopné robotické aplikace umělé inteligence, např. roboti Tesla Optimus , AI bude vtělená a mnohem chytřejší než průměrný člověk ve specifických oblastech. Může být obtížné zcela zabránit zneužívání takových složitých systémů, zejména v případech, kdy plní všední úkoly pro zločince.

3. AGI (nebo slovy Daria „ výkonná AI “) může dorazit do roku 2027

Několikrát opakuje, že to, jak se inteligentní AI stane, bude záviset na doméně a že se zdá, že blokátory vývoje AI neustále ustávají. Je logické, že správným používáním obsahu vytvořeného lidmi by schopnost lidí myslet měla být nakonec replikována umělou inteligencí. Z analogie k počítačům hrajícím šachy & AlphaGo je jasné, že ve specifických úkolech může umělá inteligence překonat lidské schopnosti a čím lépe je tato doména zdokumentovaná a rigidní, tím vyšší by měl být výkon. Nejhorším scénářem případného AGI je tedy AI pro uvažování na lidské úrovni, která má skvělé schopnosti ve specifických oblastech, kde jsme byli schopni nejvíce posunout její trénink.

Stejně tak skutečná aplikace AI bude záviset na tom, jak daleko je konkrétní odvětví od vývojářů AI. Je zřejmé, že je pro ně snazší testovat a přizpůsobovat nové modely, aby pomohly psát kód, než tyto modely dobře využívat v zemědělském prostředí. Podle této logiky by IT/kódování, věda, velkoměstské podnikání a teprve potom ostatní části ekonomiky měly pocítit dopad AI v tomto pořadí.
- 2025 – Začneme vidět působivější/autonomnější aplikace umělé inteligence, zejména v kódování, kde mohou netechnickí produktoví manažeři provádět projekty založené na kódu, aniž by žádali o pomoc kodéra.
- 2030 – Každý podnik tak či onak začlení umělou inteligenci do svého pracovního toku, hraniční modely by pomohly řadě vědeckých objevů v oborech, jako je biologie, fyzika a matematika.
1. Mechanistická interpretovatelnost se stává důležitější pro vývoj koherentního modelu
Modely se vyvíjejí poměrně rychle, ale zůstávají černou skříňkou, není jasné, proč fungují dobře a proč fungují špatně.
Často to znamená, že provádění změn / škálování takových modelů vede k halucinacím, nepředvídatelným akcím nebo naléhavému chování , kterému by v ideálním případě vývojáři rádi porozuměli předem, aby mohli provádět kontrolovaná vylepšení modelu.

Anthropic se snaží popsat, co se skutečně děje uvnitř „mysli“ jejich modelu Claude. Tento přístup by teoreticky měl vysvětlit, proč Claude chrlí určité odpovědi a jak různé tréninkové metody pomáhají změnám ve vzorcích, které se generují v této neuronové síti. Navíc je to prostě zábava zkoumat.
- 2025 - Komplexnější popisná interpretace modelu Claude s novými vizualizacemi a podrobnostmi (zveřejněny nebo nezveřejněny v závislosti na tom, jak citlivé mohou být tyto informace pro konkurenční výhodu Anthropic).
- 2030 – Pokud bude přístup společnosti Anthropic úspěšný, každá velká laboratoř umělé inteligence může vygenerovat interní mapu svých systémů umělé inteligence (interpretovaná). Pokud se však tento přístup ukáže jako příliš popisný bez skutečného dopadu na vývoj modelu, nikdo si v roce 2030 nevzpomene na mechanickou interpretovatelnost…

Závěr

Bez ohledu na předpovědi bude zábavné sledovat další fázi AI. A pokud se za 5 let žádná revoluce skutečně nestane, bude přinejmenším osvěžující si znovu přečíst tento článek, protože jsem se nakonec rozhodl zrušit své tehdejší předplatné OpenAI za 300 $ měsíčně.