Pojďme se na chvíli zamyslet nad tím, jak se naučit řídit. Každý z nás se může naučit základní principy řízení na několika ukázkách, a jakmile pochopíme pojmy jako řízení, zrychlení a brzdění, můžeme tyto dovednosti aplikovat na jakékoli auto – od kompaktního sedanu po velký nákladní automobil. Díky těmto dovednostem se také můžeme rychle přizpůsobit různým podmínkám vozovky, počasí a dopravní situaci, i když jsme se s nimi nikdy předtím nesetkali. Současná umělá inteligence však bude potřebovat tisíce hodin tréninkových dat pro každé konkrétní vozidlo a stav, zatímco AGI by bylo schopno pochopit základní principy řízení a široce je aplikovat.
AGI si klade za cíl vytvořit systémy umělé inteligence, které dokážou skutečně zobecnit znalosti a dovednosti – naučit se základní principy, které lze aplikovat na zcela nové situace. Řízení auta, hraní sýrů, go, Minecraft atd. To se výrazně liší od dnešních systémů umělé inteligence, včetně LLM, které primárně fungují prostřednictvím sofistikovaného porovnávání vzorů napříč rozsáhlými tréninkovými datovými sadami.
Moderní LLM se sice dokážou zapojit do zdánlivě inteligentní konverzace a řešit složité problémy, ale v zásadě fungují tak, že rozpoznávají a znovu kombinují vzorce, se kterými se během školení setkali. To je spíše podobné extrémně pokročilému zapamatování a statistické korelaci než skutečnému porozumění a zobecnění, protože nevytvářejí skutečné kauzální modely nebo abstraktní reprezentace světa. Když se zdá, že zobecňují, obvykle jen nacházejí jemné statistické vzorce ve svých tréninkových datech, než aby chápali hlubší principy.
ARC řeší zásadní problém měření ve výzkumu AI – jak vlastně testujeme, zda systém AI dokáže zobecnit?
Tradiční benchmarky obvykle měří výkon na konkrétních úkolech s velkými tréninkovými datovými sadami, ale vysoké skóre nemusí nutně znamenat skutečnou schopnost generalizace. Umělá inteligence může fungovat dobře jednoduše tím, že si zapamatuje vzorce v trénovacích datech spíše než rozvíjí skutečné porozumění.
Jak píše F. Chollet: „Podle našich nejlepších znalostí se ARC nezdá být přístupné žádnou existující technikou strojového učení (včetně Deep Learning)“.
Hlavní obtíže jsou následující:
– Očekávaným výstupem není štítek nebo dokonce sada štítků, ale barevná mřížka o rozměrech až 30x30 a až 10 různých barvách. Proto spadá do oblasti strukturované predikce.
– Předpokládaný výkon musí přesně odpovídat očekávanému výkonu. Pokud je jedna buňka chybná, úloha je považována za neúspěšnou. Aby se to kompenzovalo, jsou povoleny tři pokusy pro každou vstupní mřížku.
– V každé úloze jsou obecně dvě až čtyři trénovací instance (vstupní mřížka + výstupní mřížka) a jedna nebo dvě zkušební instance, pro které je třeba provést předpověď.
– Každá úloha se opírá o odlišnou transformaci ze vstupní mřížky na výstupní mřížku. Zejména nelze žádný hodnotící úkol vyřešit opětovným použitím transformace naučené na cvičných úkolech. Každý úkol je samostatným učebním problémem a to, co ARC vyhodnocuje, je široké zobecnění a několikanásobné učení.
ARC nabízí přísnější test zobecnění tím, že každý hlavolam představuje pouze 3–5 vzorků, pouze několik snímků. Tato minimální trénovací data znamenají, že AI se nemůže spoléhat na rozsáhlé porovnávání vzorů – musí extrahovat základní principy a aplikovat je na nové situace, stejně jako to dělají lidé. Hádanky jsou také záměrně navrženy tak, aby odolávaly zkratkovým řešením nebo strategiím zapamatování.
Co dělá ARC obzvláště cenným, je to, že poskytuje kvantifikovatelné měřítko schopnosti zobecnění. Spíše než diskutovat o tom, zda systém umělé inteligence skutečně „rozumí“ v nějakém filozofickém smyslu, můžeme měřit konkrétní výkon na těchto pečlivě navržených úlohách uvažování. To dává výzkumníkům jasné měřítko pro pokrok směrem k umělé obecné inteligenci.
Pokud se chcete dozvědět více o benchmarku ARC a co to znamená pro vývoj AI, toto video je skvělým místem, kde začít:
Soutěž Kaggle 2020 odhalila jeden z prvních přístupů k řešení ARC – hledání hrubou silou v prostoru předdefinovaných transformací. Vítězné řešení vytvořilo doménově specifický jazyk (DSL) obsahující 142 ručně vytvořených gridových operací. Systematickým prohledáváním kombinací těchto operací dosáhla 20% přesnosti u soukromých evaluačních úkolů. Jiné podobné řešení využívající gramatický vývoj k vedení transformačního hledání dosáhlo přesnosti 3–7,68 %.
I když byla tato řešení pozoruhodná svým počátečním úspěchem, poukázala na klíčové omezení: spoléhala na vyčerpávající hledání předem naprogramovaných pravidel spíše než na rozvíjení jakéhokoli skutečného porozumění nebo schopnosti zobecňovat. Tato mezera mezi programovým vyhledáváním a skutečnou inteligencí ukazuje, proč ARC zůstává náročným měřítkem pro měření schopností zobecnění.
Současný přístup ( https://github.com/sebferre/ARC-MDL/tree/master ) je založen na základním principu používaném k objevování vzorců a vytváření modelů, které nejlépe vysvětlují data co nejstručnějším způsobem. V jádru MDL uvádí, že „nejlepší model pro některá data je ten, který komprimuje většinu dat“.
Řešení využívá specializovaný modelovací jazyk k efektivnímu popisu mřížkových vzorů. Tento jazyk poskytuje strukturovaný způsob, jak reprezentovat vstupní i výstupní mřížky jako kombinace základních prvků:
Na nejvyšší úrovni je každá hádanka reprezentována jako pár a obsahuje dvě mřížky:
● vstupní mřížka (v)
● Výstupní mřížka (ven)
Každá mřížka je definována třemi komponenty:
Objekty jsou umístěné tvary, přičemž každý tvar může být buď:
● Jednobarevný bod
● Obdélník se zadanou velikostí, barvou a maskou
Systém masek je obzvláště výkonný a umožňuje obdélníkům mít různé podoby:
● Plný (plný obdélník)
● Ohraničení (pouze obrys)
● Šachovnicové vzory (sudé nebo liché)
● Křížové vzory (tvar plus nebo krát)
● Vlastní bitmapové vzory
Tento jazyk umožňuje systému kompaktně popisovat složité vzory mřížky. Například místo uložení mřížky 10x10 pixel po pixelu (100 hodnot) ji může uložit jako „černé pozadí s červeným obdélníkem 3x3 na pozici (2,2)“ – při použití mnohem méně hodnot při zachycení základní struktury.
Při vyhledávání vzorů se systém snaží pomocí tohoto jazyka najít co nejvýstižnější popis jak vstupních, tak výstupních mřížek. Dobrá řešení mají tendenci znovu používat prvky mezi vstupem a výstupem (jako je převzetí tvaru ze vstupu a jeho transformace na výstup), což vede ke kratším popisům a lepší kompresi.
Úspěch tohoto přístupu (94/400 vyřešených tréninkových úloh) naznačuje, že tento jazyk zachycuje mnoho klíčových vzorů přítomných v hádankách ARC, přičemž je dostatečně omezen, aby se zabránilo překombinování na konkrétní příklady.
Zatímco LLM prokázaly působivé schopnosti v mnoha doménách, jejich přímé použití k řešení ARC představuje příležitosti i výzvy. Naivní přístup zahrnuje poskytnutí příkladů vstupů a výstupů LLM a požádání ho, aby předpověděl odpověď na nové vstupy. Tato metoda má však značná omezení. LLM v tomto kontextu vykazují velmi omezené schopnosti prostorového uvažování a jsou vysoce náchylné k halucinacím, když se pokoušejí předpovídat transformace mřížky.
Tento přístup staví na metodě přímé predikce tím, že nejprve požádá LLM, aby analyzoval a popsal vzory, které pozoruje ve vstupně-výstupních párech. I když tento další krok uvažování přináší lepší výsledky tím, že pomáhá LLM rozložit problém, má stále stejná základní omezení. Model nadále vykazuje vysokou míru halucinací, když se pokouší předpovědět konečné výstupy, a to i po identifikaci potenciálních vzorců. To naznačuje, že samotné přidání explicitních kroků uvažování nestačí k překonání omezení prostorového uvažování LLM při řešení problémů ARC.
Na WLTech.AI vidíme, že obrovská role agentů AI ve snaze o AGI je velmi důležitá. Jsou navrženy tak, aby dynamicky interagovaly se svými nastaveními, přizpůsobovaly se na základě toho, co se učí, a učily se samy. Na rozdíl od statických modelů trénovaných pouze jednou se agenti umělé inteligence mohou učit z probíhajících interakcí a přizpůsobovat se měnícím se okolnostem, což z nich činí zásadní součást vývoje AGI.
Agenti umělé inteligence jsou mozkem operace, koordinují řadu technik, které jsou přizpůsobeny konkrétním požadavkům úkolu. Symbolické systémy jsou skvělé v přesném uvažování založeném na pravidlech, díky čemuž jsou ideální pro úkoly, které vyžadují pochopení transformací, jako jsou rotace nebo odrazy. Neuronové sítě jsou skvělé v rozpoznávání vzorů a zobecňování z dat, což je opravdu užitečné pro identifikaci základních struktur v úlohách ARC.
Výzvy ARC však nekončí symbolickou manipulací nebo rozpoznáváním vzorů. Mnoho úkolů vyžaduje pokročilejší úroveň abstrakce, včetně schopnosti vytvářet nová pravidla, vytvářet spojení a přizpůsobovat se novým situacím. Jazykové modely jsou zde užitečné, protože je lze použít pro věci, jako je programová syntéza a abstraktní uvažování. Algoritmy vyhledávání jsou dalším nástrojem v krabici, protože mohou efektivně prozkoumat možné transformace a identifikovat řešení. Na druhé straně plánovací systémy poskytují rámec pro rozčlenění a řešení složitých problémů krok za krokem.
Agenti AI jsou tak chytří, že dokážou všechny tyto různé přístupy spojit. Nepoužívají pouze jednu metodu najednou. Vyhodnocují a nasazují nejlepší kombinaci technik pro řešení každého jedinečného problému. Tato schopnost přizpůsobit se za běhu je to, co odlišuje lidi od ostatních a je důležitou součástí rozvoje AGI.
Ve svém jádru jsou agenti AI v podstatě inteligentní koordinátoři. Vedou průběžné záznamy o tom, co funguje a co ne, aby se mohli poučit z minulých zkušeností.
Naše řešení Agentic AI Naše řešení najdete zde: https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing nebo na Github: https://github.com/weblab-technology/ arc-challenge-2024-10
Náš průlom přišel z napodobování lidského chování při řešení problémů: analyzování příkladů, vytváření hypotéz o pravidlech, testování a zdokonalování. Namísto hrubé síly se naše umělá inteligence zaměřuje na psaní generovacích funkcí – kódu Pythonu, který definuje transformace – a jejich okamžité testování na trénovacích datech.
Překvapivým zjištěním v našem přístupu bylo, že iterativní vylepšení často brání pokroku, než aby pomáhala. Pokud je původní předpoklad za generovací funkcí chybný, pokus o jeho upřesnění obvykle chybu zesílí, místo aby ji opravoval. Toto zjištění zásadně změnilo naši metodologii.
Místo zpřesňování nesprávných předpokladů jsme zjistili, že je efektivnější:
To odráží lidské chování při resetování a přehodnocení, když se cesta řešení ukáže jako neproduktivní, spíše než opravování nefunkční strategie.
Tento pohled také vysvětluje, proč genetické algoritmy nedokázaly zlepšit výsledky. Genetické algoritmy podle návrhu vyvíjejí řešení postupně a zdokonalují je po generace. Když jsou však základní předpoklady špatné, postupné změny vedou ke spletitým řešením, která se dále od správné transformace vzdalují.
Hodnocení LLM: Claude 3.5 Sonnet překonává konkurenci
Abychom se vypořádali s výzvou ARC, rozsáhle jsme testovali několik velkých jazykových modelů (LLM), které pomáhají při psaní funkcí generování. Mezi nimi se jako nejschopnější ukázal Claude 3.5 Sonnet, který výrazně předčil své konkurenty.
Klíčová zjištění:
Claude 3.5 Sonnet vs. GPT-4o:
● Výkon: Claude 3.5 Sonnet identifikoval více vzorů než GPT-4o a dosáhl téměř dvojnásobné přesnosti při rozpoznávání vzorů.
● Efektivita: Claude dosáhl stejných výsledků jako OpenAI GPT-4o za 1/7 doby provádění, takže je nejen efektivnější, ale také rychlejší.
Pokles GPT-4o:
● V průběhu času jsme zaznamenali znatelný pokles výkonu GPT-4o. Počáteční verze GPT-4o byla mnohem schopnější pro úkoly ARC než následující verze, což naznačuje potenciální posun v její optimalizaci, který bránil rozpoznání vzorů a zdůvodnění této výzvy.
Proč Claude 3.5 Sonnet vyniká
Claudeova výhoda spočívá v jeho schopnosti zobecnit a identifikovat jemné transformace, což je zásadní pro málostřelnou povahu ARC. Jeho konzistentní výkon a efektivita z něj učinily jasnou volbu pro integraci do našeho rámce agentů AI a nastavily nový standard pro uvažování řízené LLM při strukturovaném řešení problémů.
Náš přístup dosáhl téměř 30% přesnosti na sadě hodnocení ARC , což výrazně překonalo základní metody. Tento výsledek zdůrazňuje sílu napodobování lidského chování při řešení problémů, využití nových hypotéz oproti iterativním vylepšením a využití nejschopnějších LLM, jako je Claude 3.5 Sonnet. I když stále existuje značný prostor pro zlepšení, tento milník demonstruje významný pokrok při řešení výzev ARC a postupu směrem k širšímu zobecnění v AI.
Ve WLTech.AI věříme, že budoucnost řešení ARC spočívá v pokračujícím růstu schopností LLM v kombinaci s vyšší úrovní uvažovacích rámců, jako je minimální délka popisu (MDL) nebo podobné přístupy pro stručné vysvětlení vzorů. Tato vylepšení by mohla umožnit modelům lépe abstrahovat a zobecňovat transformace. Kromě toho by integrace samovylepšujícího se systému rychlého volání založeného na rostoucí bance řešení umožnila modelům iterativně zlepšovat své uvažování a čerpat z minulých úspěchů, čímž by se vytvořil adaptivnější a efektivnější kanál pro řešení problémů. Tato synergie mezi pokročilými LLM, strukturovanými vysvětleními a adaptivním učením má potenciál odemknout nové milníky ve vývoji ARC a AGI.
Srovnávací test Abstraction and Reasoning Corpus (ARC) byl klíčem k testování toho, jak dobře umělá inteligence dokáže aplikovat obecná pravidla a myslet abstraktnějším způsobem. V průběhu let jsme viděli řadu výjimečných řešitelů, z nichž každý přidal do oboru něco jiného.
● Přístup Ryana Greenblatta
V roce 2024 Ryan Greenblatt, inženýr z Redwood Research, dosáhl významného milníku tím, že získal 42 % na sadě veřejného hodnocení ARC-AGI, s ověřovacím skóre 43 %. Jeho přístup zahrnoval použití GPT-4o ke generování a vylepšování několika programů Python a výběru těch nejlepších k odeslání. To ukazuje, jak můžeme použít velké jazykové modely s programovou syntézou k řešení složitých úloh uvažování.
● Icecuber 2020
Řešení „icecuber 2020“, předchozí vítěz soutěže, získalo veřejné hodnocení 39 % a ověřovací skóre 17 %. I když nemáme všechny podrobnosti o metodice, toto řešení bylo opravdu důležité při nastavování laťky pro následující řešitele ARC.
Žebříček ARC Prize 2024 obsahuje následující nejlepší hráče :
● MindsAI jsou v čele se skóre 55,5 %.
● ARChitects jsou těsně pozadu se skóre 53,5 %.
● Guillermo Barbadillo na třetím místě se skóre 40 %.
● Alijs na čtvrtém místě, také na 40 %.
● TuMinhDang pátý se skóre 38 %.
Tato skóre ukazují, jak všichni tvrdě pracují a přicházejí s novými způsoby, jak se vypořádat s benchmarkem ARC. Ukazují také, jak různé týmy používají různé strategie.
Benchmark ARC je stále skvělým způsobem, jak otestovat, jak dobře umí systémy umělé inteligence uvažovat a zobecňovat. I když došlo k několika velkým pokrokům, žádný model se zcela nevypořádal s ARC, což ukazuje, jak složité je dosáhnout umělé obecné inteligence. Výzkumníci a praktici vždy hledají způsoby, jak kombinovat různé přístupy pomocí symbolického uvažování s neuronovými sítěmi, aby se přiblížili řešení problémů.
Benchmarky jako ARC nám umožňují nahlédnout do budoucnosti výzkumu AI. Posouvají pole směrem k systémům, které mohou myslet a přizpůsobovat se jako lidé. Zatímco stále děláme pomalý pokrok, ARC již stanovilo jasnou cestu k dosažení AGI.
● Zaměření se pohybuje směrem k zobecnění. ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )
V budoucnu budou systémy umělé inteligence navrženy tak, aby spíše zobecňovaly než specializovaly. Jak ukazují úkoly ARC, schopnost řešit nové problémy bez nutnosti přeškolování je klíčovým znakem skutečné inteligence. Zdá se pravděpodobné, že výzkumníci vyvinou modely, které jsou skvělé v učení několika výstřelů nebo nulových výstřelů, přičemž se inspirují tím, jak funguje náš mozek.
● Hybridní modely se stanou normou.
Úspěch řešitelů ARC nám již ukázal, že systémy s jedním přístupem mají své limity. Budoucností AI budou hybridní modely, které integrují neuronové sítě, symbolické systémy a pravděpodobnostní uvažování. Tyto modely budou fungovat dobře na ARC, ale budou také schopny zvládnout problémy v reálném světě, kde je klíčová flexibilita a přizpůsobivost.
● Je zde nové zaměření na kognitivní architekturu.
ARC přiměl lidi přemýšlet o kognitivních architekturách, které kopírují schopnost lidského mozku kombinovat různé způsoby uvažování. Uvidíme další výzkum pracovní paměti, meta-learningu a multiagentních systémů, které pomohou připravit cestu pro AI, která dokáže uvažovat, učit se a přizpůsobovat se za běhu.
Jak se systémy umělé inteligence stávají chytřejšími, začnou s námi spolupracovat a nebudou za nás jen dělat naši práci. Benchmarky, jako je ARC, pomáhají vyvíjet systémy umělé inteligence, které fungují po boku lidí a nabízejí pohledy a řešení ve složitých oblastech, jako je vědecké objevování a kreativní řešení problémů.
Soutěže jako tyto skutečně inspirovaly komunitu AI. S odměnou přesahující 1 000 000 $ je cena ARC skvělou pobídkou pro výzkumníky, aby přicházeli s řešeními s otevřeným zdrojovým kódem, která dokážou překonat současná měřítka.
Ve WLTech.AI si uvědomujeme, že hodnota takových řešení daleko přesahuje 1 000 000 USD, a jsme nadšeni, že se této výzvy opět zúčastníme příští rok, abychom pokračovali v rozvoji oboru.