Mari kita luangkan waktu sejenak untuk berpikir tentang belajar mengemudi. Siapa pun dari kita dapat mempelajari prinsip dasar mengemudi hanya dari beberapa demonstrasi, dan begitu kita memahami konsep seperti kemudi, akselerasi, dan pengereman, kita dapat menerapkan keterampilan tersebut pada mobil apa pun — dari sedan kompak hingga truk besar. Dengan keterampilan ini, kita juga dapat dengan cepat beradaptasi dengan berbagai kondisi jalan, cuaca, dan situasi lalu lintas, bahkan jika kita belum pernah mengalaminya sebelumnya. Namun, AI saat ini akan membutuhkan ribuan jam data pelatihan untuk setiap kendaraan dan kondisi tertentu, sementara AGI akan dapat memahami prinsip dasar mengemudi dan menerapkannya secara luas.
AGI bertujuan untuk menciptakan sistem AI yang benar-benar dapat menggeneralisasikan pengetahuan dan keterampilan — mempelajari prinsip-prinsip dasar yang dapat diterapkan pada situasi yang sama sekali baru. Mengemudikan mobil, bermain cheese, go, Minecraft, dll. Hal ini sangat berbeda dari sistem AI saat ini, termasuk LLM, yang utamanya beroperasi melalui pencocokan pola yang canggih di seluruh kumpulan data pelatihan yang luas.
Sementara LLM modern dapat terlibat dalam percakapan yang tampak cerdas dan memecahkan masalah yang rumit, pada dasarnya mereka bekerja dengan mengenali dan menggabungkan kembali pola yang telah mereka temui selama pelatihan. Ini lebih mirip dengan hafalan yang sangat canggih dan korelasi statistik daripada pemahaman dan generalisasi yang sebenarnya, karena mereka tidak membangun model kausal yang asli atau representasi abstrak dari dunia. Ketika mereka tampak melakukan generalisasi, mereka biasanya hanya menemukan pola statistik yang halus dalam data pelatihan mereka daripada memahami prinsip-prinsip yang lebih dalam.
ARC membahas masalah pengukuran penting dalam penelitian AI — bagaimana kita benar-benar menguji apakah sistem AI dapat melakukan generalisasi?
Tolok ukur tradisional biasanya mengukur kinerja pada tugas-tugas tertentu dengan kumpulan data pelatihan yang besar, tetapi skor yang tinggi tidak selalu menunjukkan kemampuan generalisasi yang sebenarnya. AI mungkin berkinerja baik hanya dengan menghafal pola-pola dalam data pelatihan daripada mengembangkan pemahaman yang sebenarnya.
Seperti yang ditulis F. Chollet: “Sejauh pengetahuan kami, ARC tampaknya tidak dapat diakses oleh teknik pembelajaran mesin apa pun yang ada (termasuk Pembelajaran Mendalam)”.
Kesulitan utamanya adalah sebagai berikut:
– Output yang diharapkan bukanlah label atau bahkan sekumpulan label, tetapi kotak berwarna dengan ukuran hingga 30x30 dan hingga 10 warna berbeda. Oleh karena itu, hal ini termasuk dalam ranah prediksi terstruktur.
– Output yang diprediksi harus sama persis dengan output yang diharapkan. Jika satu sel salah, tugas dianggap gagal. Untuk mengimbanginya, tiga kali percobaan diperbolehkan untuk setiap kisi input.
– Pada setiap tugas, umumnya terdapat antara dua hingga empat contoh pelatihan (jaringan input + jaringan output), dan satu atau dua contoh pengujian yang mengharuskan dilakukannya prediksi.
– Setiap tugas bergantung pada transformasi yang berbeda dari grid input ke grid output. Secara khusus, tidak ada tugas evaluasi yang dapat diselesaikan dengan menggunakan kembali transformasi yang dipelajari pada tugas pelatihan. Setiap tugas adalah masalah pembelajaran yang berbeda, dan yang dievaluasi ARC adalah generalisasi yang luas dan pembelajaran beberapa langkah.
ARC menawarkan pengujian generalisasi yang lebih ketat dengan menyajikan setiap teka-teki hanya dengan 3–5 sampel, hanya beberapa kali. Data pelatihan minimal ini berarti AI tidak dapat mengandalkan pencocokan pola yang ekstensif — ia harus mengekstrak prinsip-prinsip yang mendasarinya dan menerapkannya pada situasi baru, seperti yang dilakukan manusia. Teka-teki tersebut juga sengaja dirancang untuk menahan solusi pintas atau strategi menghafal.
Yang membuat ARC sangat berharga adalah karena ia menyediakan ukuran yang dapat diukur dari kemampuan generalisasi. Daripada memperdebatkan apakah sistem AI benar-benar "memahami" dalam beberapa pengertian filosofis, kita dapat mengukur kinerja konkret pada tugas-tugas penalaran yang dirancang dengan cermat ini. Hal ini memberi para peneliti tolok ukur yang jelas untuk kemajuan menuju kecerdasan umum buatan.
Jika Anda ingin mengetahui lebih lanjut tentang tolok ukur ARC dan apa artinya bagi pengembangan AI, video ini adalah tempat yang bagus untuk memulai:
Kompetisi Kaggle 2020 mengungkap salah satu pendekatan pertama untuk memecahkan ARC — pencarian brute-force melalui ruang transformasi yang telah ditentukan sebelumnya. Solusi pemenang membangun bahasa khusus domain (DSL) yang berisi 142 operasi grid yang dibuat dengan tangan. Dengan mencari secara sistematis melalui kombinasi operasi ini, ia mencapai akurasi 20% pada tugas evaluasi pribadi. Solusi serupa lainnya yang menggunakan evolusi tata bahasa untuk memandu pencarian transformasi mencapai akurasi 3–7,68%.
Meskipun terkenal karena keberhasilan awalnya, solusi ini menyoroti keterbatasan utama: solusi ini mengandalkan pencarian menyeluruh terhadap aturan yang telah diprogram sebelumnya, alih-alih mengembangkan pemahaman atau kemampuan nyata untuk melakukan generalisasi. Kesenjangan antara pencarian terprogram dan kecerdasan sejati ini menunjukkan mengapa ARC tetap menjadi tolok ukur yang menantang untuk mengukur kemampuan generalisasi.
Pendekatan saat ini ( https://github.com/sebferre/ARC-MDL/tree/master ) didasarkan pada prinsip dasar yang digunakan untuk menemukan pola dan membangun model yang paling baik menjelaskan data dengan cara yang paling ringkas. Pada intinya, MDL menyatakan bahwa "model terbaik untuk beberapa data adalah model yang paling banyak mengompresi data."
Solusinya menggunakan bahasa pemodelan khusus untuk menggambarkan pola grid secara efisien. Bahasa ini menyediakan cara terstruktur untuk merepresentasikan grid input dan output sebagai kombinasi elemen dasar:
Pada level tertinggi, setiap teka-teki direpresentasikan sebagai pasangan dan berisi dua kotak:
● Grid masukan (dalam)
● Sebuah grid keluaran (keluar)
Setiap grid didefinisikan oleh tiga komponen:
Objek adalah bentuk yang diposisikan, yang mana setiap bentuk dapat berupa:
● Titik satu warna
● Persegi panjang dengan ukuran, warna, dan topeng yang ditentukan
Sistem topengnya sangat kuat, memungkinkan persegi panjang mengambil berbagai bentuk:
● Penuh (persegi panjang padat)
● Batas (hanya garis luar)
● Pola papan catur (genap atau ganjil)
● Pola silang (bentuk plus atau kali)
● Pola bitmap khusus
Bahasa ini memungkinkan sistem untuk menggambarkan pola grid yang kompleks secara ringkas. Misalnya, alih-alih menyimpan grid 10x10 piksel demi piksel (100 nilai), sistem dapat menyimpannya sebagai "latar belakang hitam dengan persegi panjang merah 3x3 pada posisi (2,2)" — menggunakan nilai yang jauh lebih sedikit sambil menangkap struktur yang penting.
Saat mencari pola, sistem mencoba menemukan deskripsi paling ringkas dari kisi masukan dan keluaran menggunakan bahasa ini. Solusi yang baik cenderung menggunakan kembali elemen antara masukan dan keluaran (seperti mengambil bentuk dari masukan dan mengubahnya dalam keluaran), yang menghasilkan deskripsi yang lebih pendek dan kompresi yang lebih baik.
Keberhasilan pendekatan ini (94/400 tugas pelatihan terpecahkan) menunjukkan bahwa bahasa ini menangkap banyak pola utama yang ada dalam teka-teki ARC sambil cukup dibatasi untuk menghindari penyesuaian yang berlebihan pada contoh-contoh spesifik.
Meskipun LLM telah menunjukkan kemampuan yang mengesankan di banyak domain, menggunakannya secara langsung untuk memecahkan ARC menghadirkan peluang dan tantangan. Pendekatan naif melibatkan pemberian contoh input-output kepada LLM dan memintanya untuk memprediksi jawaban untuk input baru. Namun, metode ini memiliki keterbatasan yang signifikan. LLM menunjukkan kemampuan penalaran spasial yang sangat terbatas dalam konteks ini dan sangat rentan terhadap halusinasi saat mencoba memprediksi transformasi grid.
Pendekatan ini dibangun berdasarkan metode prediksi langsung dengan terlebih dahulu meminta LLM untuk menganalisis dan menjelaskan pola yang diamatinya dalam pasangan masukan-keluaran. Meskipun langkah penalaran tambahan ini menghasilkan hasil yang lebih baik dengan membantu LLM menguraikan masalah, namun masih memiliki keterbatasan mendasar yang sama. Model tersebut terus menunjukkan tingkat halusinasi yang tinggi ketika mencoba memprediksi keluaran akhir, bahkan setelah mengidentifikasi pola potensial. Hal ini menunjukkan bahwa menambahkan langkah penalaran eksplisit saja tidak cukup untuk mengatasi keterbatasan penalaran spasial LLM dalam memecahkan tantangan ARC.
Di WLTech.AI , kami melihat peran besar Agen AI dalam mengejar AGI sangatlah penting. Mereka dirancang untuk berinteraksi dengan lingkungan mereka secara dinamis, beradaptasi berdasarkan apa yang mereka pelajari, dan belajar sendiri. Tidak seperti model statis yang hanya dilatih sekali, agen AI dapat belajar dari interaksi yang sedang berlangsung dan beradaptasi dengan keadaan yang berubah, menjadikannya komponen penting dalam pengembangan AGI.
Agen AI adalah otak dari operasi, yang mengoordinasikan berbagai teknik yang disesuaikan dengan tuntutan spesifik suatu tugas. Sistem simbolik hebat dalam penalaran berbasis aturan yang tepat, yang membuatnya sempurna untuk tugas yang memerlukan pemahaman transformasi seperti rotasi atau refleksi. Jaringan saraf hebat dalam mengenali pola dan melakukan generalisasi dari data, yang sangat berguna untuk mengidentifikasi struktur yang mendasari dalam tugas ARC.
Namun, tantangan ARC tidak berakhir dengan manipulasi simbolik atau pengenalan pola. Banyak tugas memerlukan tingkat abstraksi yang lebih tinggi, termasuk kemampuan untuk membuat aturan baru, membuat koneksi, dan beradaptasi dengan situasi baru. Model bahasa berguna di sini, karena dapat digunakan untuk hal-hal seperti sintesis program dan penalaran abstrak. Algoritme pencarian adalah alat lain yang tersedia karena dapat mengeksplorasi kemungkinan transformasi secara efisien untuk mengidentifikasi solusi. Di sisi lain, sistem perencanaan menyediakan kerangka kerja untuk memecah dan mengatasi masalah kompleks selangkah demi selangkah.
Yang membuat agen AI begitu pintar adalah karena mereka dapat menggabungkan semua pendekatan yang berbeda ini. Mereka tidak hanya menggunakan satu metode dalam satu waktu. Mereka mengevaluasi dan menerapkan kombinasi teknik terbaik untuk mengatasi setiap masalah yang unik. Kemampuan untuk beradaptasi dengan cepat inilah yang membedakan manusia dan merupakan bagian penting dalam memajukan AGI.
Pada dasarnya, agen AI adalah koordinator yang cerdas. Mereka menyimpan catatan tentang apa yang berhasil dan apa yang tidak, sehingga mereka dapat belajar dari pengalaman sebelumnya.
Solusi AI Agentic kami Anda dapat menemukan solusi kami di sini: https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing atau di Github: https://github.com/weblab-technology/arc-challenge-2024-10
Terobosan kami muncul dari meniru perilaku manusia dalam memecahkan masalah: menganalisis contoh, membuat hipotesis tentang aturan, menguji, dan menyempurnakan. Alih-alih menggunakan kekerasan, AI kami berfokus pada penulisan fungsi pembangkitan — kode Python yang mendefinisikan transformasi — dan segera mengujinya pada data pelatihan.
Penemuan mengejutkan dalam pendekatan kami adalah bahwa perbaikan berulang sering kali menghambat kemajuan alih-alih membantu. Jika asumsi awal di balik fungsi pembangkitan cacat, upaya untuk menyempurnakannya biasanya memperbesar kesalahan alih-alih memperbaikinya. Realisasi ini pada dasarnya membentuk kembali metodologi kami.
Alih-alih memperbaiki asumsi yang salah, kami menemukan cara yang lebih efektif untuk:
Hal ini mencerminkan perilaku manusia yang melakukan pengaturan ulang dan memikirkan ulang ketika jalur solusi terbukti tidak produktif, alih-alih menambal strategi yang rusak.
Wawasan ini juga menjelaskan mengapa algoritma genetik gagal meningkatkan hasil. Berdasarkan rancangannya, algoritma genetik mengembangkan solusi secara bertahap, menyempurnakannya dari generasi ke generasi. Namun, ketika asumsi dasar salah, perubahan bertahap menghasilkan solusi berbelit-belit yang semakin menyimpang dari transformasi yang benar.
Evaluasi LLM: Claude 3.5 Soneta Mengungguli Pesaingnya
Untuk mengatasi tantangan ARC, kami menguji secara ekstensif beberapa model bahasa besar (LLM) untuk membantu penulisan fungsi pembangkitan. Di antara semuanya, Claude 3.5 Sonnet muncul sebagai yang paling mampu, jauh mengungguli pesaingnya.
Temuan Utama:
Claude 3.5 Soneta vs. GPT-4o:
● Kinerja: Claude 3.5 Sonnet mengidentifikasi lebih banyak pola daripada GPT-4o, mencapai akurasi hampir dua kali lipat dalam pengenalan pola.
● Efisiensi: Claude mencapai hasil yang sama dengan GPT-4o OpenAI dalam waktu eksekusi 1/7, membuatnya tidak hanya lebih efektif tetapi juga lebih cepat.
Penurunan GPT-4o:
● Kami mengamati penurunan yang nyata dalam kinerja GPT-4o dari waktu ke waktu. Versi awal GPT-4o jauh lebih mampu untuk tugas ARC daripada versi berikutnya, yang menunjukkan potensi pergeseran dalam pengoptimalannya yang menghambat pengenalan pola dan penalaran untuk tantangan ini.
Mengapa Claude 3.5 Soneta Menonjol
Keunggulan Claude terletak pada kemampuannya untuk menggeneralisasi dan mengidentifikasi transformasi halus, yang sangat penting bagi sifat ARC yang jarang digunakan. Performa dan efisiensinya yang konsisten menjadikannya pilihan yang tepat untuk diintegrasikan ke dalam kerangka kerja agen AI kami, yang menetapkan standar baru untuk penalaran berbasis LLM dalam pemecahan masalah terstruktur.
Pendekatan kami mencapai akurasi mendekati 30% pada set evaluasi ARC , yang secara signifikan mengungguli metode dasar. Hasil ini menyoroti kekuatan meniru perilaku pemecahan masalah manusia, memanfaatkan hipotesis baru melalui penyempurnaan berulang, dan memanfaatkan LLM yang paling mumpuni seperti Claude 3.5 Sonnet. Meskipun masih ada ruang substansial untuk perbaikan, tonggak sejarah ini menunjukkan kemajuan yang berarti dalam mengatasi tantangan ARC dan maju menuju generalisasi yang lebih luas dalam AI.
Di WLTech.AI, kami percaya bahwa masa depan penyelesaian ARC terletak pada pertumbuhan berkelanjutan kemampuan LLM yang dikombinasikan dengan kerangka penalaran tingkat tinggi seperti Minimum Description Length (MDL) atau pendekatan serupa untuk penjelasan pola yang ringkas. Kemajuan ini dapat memungkinkan model untuk mengabstraksi dan menggeneralisasi transformasi dengan lebih baik. Selain itu, mengintegrasikan sistem prompt yang menyempurnakan sendiri berdasarkan bank solusi yang berkembang akan memungkinkan model untuk secara berulang meningkatkan penalaran mereka dan memanfaatkan keberhasilan masa lalu, sehingga menciptakan alur pemecahan masalah yang lebih adaptif dan efisien. Sinergi antara LLM tingkat lanjut, penjelasan terstruktur, dan pembelajaran adaptif ini berpotensi untuk membuka tonggak baru dalam pengembangan ARC dan AGI.
Benchmark Abstraction and Reasoning Corpus (ARC) telah menjadi kunci untuk menguji seberapa baik AI dapat menerapkan aturan umum dan berpikir dengan cara yang lebih abstrak. Selama bertahun-tahun, kami telah melihat sejumlah pemecah masalah yang menonjol, masing-masing menambahkan sesuatu yang berbeda ke dalam bidang ini.
● Pendekatan Ryan Greenblatt
Pada tahun 2024, Ryan Greenblatt, seorang insinyur di Redwood Research, mencapai tonggak penting dengan memperoleh skor 42% pada set evaluasi publik ARC-AGI, dengan skor verifikasi sebesar 43%. Pendekatannya melibatkan penggunaan GPT-4o untuk membuat dan menyempurnakan beberapa program Python dan memilih yang terbaik untuk diajukan. Ini menunjukkan bagaimana kita dapat menggunakan model bahasa yang besar dengan sintesis program untuk menangani tugas penalaran yang kompleks.
● Icecuber 2020
Solusi “icecuber 2020”, pemenang kompetisi sebelumnya, memperoleh skor evaluasi publik sebesar 39% dan skor verifikasi sebesar 17%. Meskipun kami tidak memiliki semua detail tentang metodologinya, solusi ini sangat penting dalam menetapkan standar bagi para penyelesai ARC berikutnya.
Papan peringkat ARC Prize 2024 menampilkan para peraih prestasi terbaik berikut ini:
● MindsAI memimpin dengan skor 55,5%.
● Para ARChitects berada di posisi berikutnya dengan skor 53,5%.
● Guillermo Barbadillo di posisi ketiga dengan skor 40%.
● Alijs di posisi keempat, juga dengan 40%.
● TuMinhDang kelima dengan skor 38%.
Skor ini menunjukkan bagaimana semua orang bekerja keras dan menemukan cara baru untuk mengatasi tolok ukur ARC. Skor ini juga menunjukkan bagaimana tim yang berbeda menggunakan strategi yang berbeda.
Tolok ukur ARC masih merupakan cara yang bagus untuk menguji seberapa baik sistem AI dapat bernalar dan melakukan generalisasi. Meskipun telah ada beberapa kemajuan besar, tidak ada model yang dapat memahami ARC sepenuhnya, yang menunjukkan betapa sulitnya mencapai kecerdasan umum buatan. Para peneliti dan praktisi selalu mencari cara untuk menggabungkan berbagai pendekatan, menggunakan penalaran simbolik dengan jaringan saraf, untuk lebih dekat dalam memecahkan masalah.
Tolok ukur seperti ARC memberi kita gambaran sekilas tentang masa depan penelitian AI. Tolok ukur tersebut mengarahkan bidang ini ke sistem yang dapat berpikir dan beradaptasi seperti manusia. Meskipun kemajuannya masih lambat, ARC telah menetapkan jalur yang jelas untuk mencapai AGI.
● Fokusnya bergerak ke arah generalisasi. ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )
Di masa mendatang, sistem AI akan dirancang untuk menggeneralisasi alih-alih mengkhususkan. Seperti yang ditunjukkan tugas-tugas ARC, mampu memecahkan masalah baru tanpa harus berlatih ulang adalah tanda utama kecerdasan sejati. Tampaknya para peneliti akan mengembangkan model-model yang hebat dalam pembelajaran dengan sedikit atau tanpa langkah, dengan mengambil inspirasi dari cara kerja otak kita.
● Model hibrida akan menjadi norma.
Keberhasilan pemecah masalah ARC telah menunjukkan kepada kita bahwa sistem pendekatan tunggal memiliki keterbatasan. Masa depan AI akan berupa model hibrida yang mengintegrasikan jaringan saraf, sistem simbolik, dan penalaran probabilistik. Model-model ini akan bekerja dengan baik pada ARC, tetapi mereka juga akan mampu menangani masalah dunia nyata di mana fleksibilitas dan kemampuan beradaptasi adalah kuncinya.
● Ada fokus baru pada arsitektur kognitif.
ARC telah membuat orang berpikir tentang arsitektur kognitif yang meniru kemampuan otak manusia untuk menggabungkan berbagai cara berpikir. Kita akan melihat lebih banyak penelitian tentang memori kerja, meta-pembelajaran, dan sistem multi-agen, yang akan membantu membuka jalan bagi AI yang dapat berpikir, belajar, dan beradaptasi dengan cepat.
Seiring dengan semakin cerdasnya sistem AI, sistem tersebut akan mulai bekerja bersama kita, bukan sekadar mengerjakan pekerjaan kita. Tolok ukur seperti ARC membantu mengembangkan sistem AI yang bekerja bersama manusia, menawarkan wawasan dan solusi dalam bidang yang kompleks seperti penemuan ilmiah dan pemecahan masalah yang kreatif.
Kompetisi seperti ini benar-benar telah menginspirasi komunitas AI. Dengan hadiah lebih dari $1.000.000, ARC Prize merupakan insentif yang hebat bagi para peneliti untuk menghasilkan solusi sumber terbuka yang dapat mengalahkan tolok ukur saat ini.
Di WLTech.AI , kami menyadari bahwa nilai solusi semacam itu jauh melebihi $1.000.000, dan kami gembira untuk berpartisipasi dalam tantangan ini lagi tahun depan untuk terus memajukan bidang ini.