AI Generatif tidak lepas dari angin puyuh teknologi. Model seperti GPT-4 telah melanda dunia dengan kapasiti nyata mereka untuk menghasilkan teks yang meniru perbualan manusia, menulis esei, kod, dan juga menghasilkan penyelesaian kreatif untuk beberapa tugas yang agak rumit. Kami sentiasa menghampiri masa depan yang dibantu AI, di mana pembantu digital kami akan memahami dan bertindak balas terhadap keperluan kami dengan mudah. Cukuplah untuk menjadikan sesiapa sahaja yang beriman, bukan?
Nah, hampir… tetapi tidak cukup.
Lihat, di bawah kilauan keluaran GPT yang cemerlang dan kehalusan tatabahasanya adalah batasan asas, yang menyebabkan ramai daripada kita ahli teknologi gila: AI generatif bergelut untuk mengendalikan maklumat baharu sepenuhnya, terutamanya dalam senario pembelajaran sekali sahaja. Isu yang kelihatan mudah (namun mengecewakan) ini mendedahkan jurang utama dalam sistem AI semasa. Walaupun dapat mensintesis petikan yang mengagumkan daripada berbilion titik data, apabila ditugaskan dengan kebaharuan sebenar – sesuatu yang tidak pernah dilihat atau dilatih sebelum ini – model gaya GPT melanda dinding yang sedia ada.
Ini melukiskan gambaran tentang apa yang saya panggil "Paradoks Generalisasi Satu Pukulan" : tidak kira betapa berkuasanya, tidak kira betapa 'pintar' sistem AI seperti GPT kelihatan, mereka runtuh apabila diperlukan untuk membuat generalisasi dengan cepat daripada hanya segelintir atau segelintir kecil. contoh yang tidak kelihatan.
Mari kita bongkarkan sedikit paradoks ini dan selami mengapa di sebaliknya. Tetapi jangan risau, kami tidak akan mengekalkan falsafah ini semata-mata — kami akan masuk ke dalam lumpur teknikal dan meneroka apa sebenarnya yang menghalang AI gen semasa kami daripada memadankan fleksibiliti ajaib yang ada pada manusia apabila berhadapan dengan perkara yang tidak dikenali.
Kecemerlangan teras model seperti GPT-4 terletak pada seni bina Transformer yang canggih, yang terkenal dengan kuasa segala-galanya daripada model bahasa kepada tugas penglihatan. Sekarang, saya tidak mahu menyibukkan anda dengan jargon pada awal bahagian ini (kami baru bermula), tetapi beberapa lapisan teknologi perlu dibongkar untuk memahami di mana dan sebab retakan mula kelihatan.
Sebagai permulaan, GPT tergolong dalam keluarga model berasaskan jujukan , dilatih untuk meramal perkataan atau token seterusnya dalam mana-mana bahagian teks tertentu. Bagaimana mereka menjadi begitu baik dalam hal ini? Sebahagian besarnya, ini disebabkan oleh mekanisme perhatian diri yang dibina ke dalam Transformer , yang membolehkan model ini menapis sejumlah besar teks dan pada asasnya "memfokus" pada bahagian penting ayat sambil melihat perkataan di seluruh jujukan. Mekanisme perhatian global ini dengan pantas menjadi tulang belakang untuk menangkap makna sensitif konteks dalam sebahagian besar teks.
Tetapi inilah inti paradoks: Generatif AI sangat bergantung pada data latihan ini. Ia luar biasa dalam mengenali corak dan hubungan statistik antara token dalam data yang dilihat sebelum ini, tetapi ia juga bergantung pada data tersebut. Apabila model itu dikeluarkan, GPT-4 sebenarnya tidak belajar menaakul atau mengembangkan pemahaman tentang dunia. Sebaliknya, ia memanfaatkan persatuan yang telah diambilnya merentas berbilion-bilion contoh teks yang ditemui dalam talian (dalam buku, Wikipedia, utas Reddit, kertas akademik... sebut sahaja).
Jadi, walaupun GPT mungkin berasa seperti oracle yang melihat segala-galanya, menghasilkan teks yang koheren dan kadangkala bernas, apa yang sebenarnya dilakukannya ialah memainkan permainan padanan corak kemungkinan yang mengagumkan. Maksudnya? Apabila sesuatu yang baharu datang (seperti kertas saintifik serba baharu tentang mekanik kuantum atau beberapa jargon khusus industri khusus), sukar untuk memahaminya secara bermakna.
Ia... tidak mengira.
Sekarang, di sinilah manusia berbeza dengan ketara daripada mesin. Bayangkan anda membaca tentang konsep yang benar-benar di luar kepakaran anda buat kali pertama. Mungkin anda seorang pengasas permulaan teknologi yang mengemudi dunia kejuruteraan mekanikal. Sudah tentu, anda mungkin tidak menyambungkan semua titik pada bacaan baca pertama — tetapi selepas melihat beberapa contoh atau rajah, beberapa pancaran mentol lampu intuitif akan padam. Aha, ini adalah sistem kawalan! Ini bersambung dengan itu! Dan kemudian, lihat dan lihat, anda mendapatnya (atau sekurang-kurangnya kebanyakannya).
Nuansa ini dipanggil generalisasi satu pukulan — keupayaan untuk mengambil corak dengan cepat atau memahami maklumat yang benar-benar baharu berdasarkan contoh minimum. Dan ia adalah sesuatu yang sangat baik oleh manusia. Kami mengambil secebis pengetahuan dan secara intuitif memetakannya kepada tema, struktur atau analogi yang lebih luas yang telah kami ketahui. Dalam erti kata lain, kita tidak memerlukan sejuta contoh atau korpus besar data masa lalu untuk mendapat epiphany.
Sebaliknya, model generatif tidak mempunyai pemahaman semula jadi tentang dunia sama sekali. Mereka berjalan secara rawak melalui ruang statistik dan membuat ramalan berdasarkan perkataan atau struktur mana yang paling mungkin berlaku bersama. Oleh itu, apabila mereka diminta untuk mengendalikan sesuatu yang benar-benar novel — istilah saintifik yang sama sekali baharu, teori baharu yang tidak pernah diterbitkan dalam talian — mereka mula-mula menjejak ke dinding. Ringkasnya, mereka tidak pernah menemuinya sebelum ini , dan mereka tidak mempunyai rangka kerja konseptual yang tulen untuk membuat lompatan ke atas wilayah yang tidak dikenali.
Baiklah, itu agak abstrak. Izinkan saya memecahkan ini lebih lanjut.
Model AI Generatif belajar dengan menginterpolasi antara titik data sedia ada. Bermakna, mereka menjadi pakar dalam mengisi jurang antara mata yang telah mereka lihat dan corak yang mereka biasa, tetapi bergelut dengan ekstrapolasi , iaitu, melompat keluar dan membuat unjuran berdasarkan konsep baharu apabila data latihan tidak mempunyai preseden. Sebagai contoh, GPT-4 boleh mengendalikan pembinaan linguistik "biasa" dalam bahasa harian dengan baik kerana terdapat berjuta-juta contoh yang tersedia. Tetapi, lemparkan permintaan untuk muncul, idea-idea hiper khusus - katakan, spesifik kemajuan terkini dalam laser gentian solitonik dalam fizik - dan ledakan: omong kosong mutlak. kenapa? GPT tidak mempunyai sebarang titik rujukan statistik untuk niche, istilah baru. Ia pada asasnya telah meneka tekaan bahawa, walaupun masuk akal dalam kelancaran, mengorbankan koheren sebenar untuk ketepatan sintaksis .
Baiklah, jika anda berfikiran lebih teknikal, mari kita menyelami lebih mendalam mengapa had ini sangat degil, dan apa yang berlaku di bawah hud semasa percubaan pembelajaran sekali sahaja.
Satu isu utama dengan generalisasi satu pukulan ialah mengenai maklumat yang diwakili oleh model secara dalaman semasa latihan penyeliaan sendiri . Model gaya GPT berkelakuan agak baik apabila bekerja dalam had — fenomena yang sering digambarkan sebagai pembelajaran dalam pengedaran . Dalam sempadan topik, ia telah melihat contoh latihan yang cukup luas, malah GPT-4 boleh menghasilkan output yang berwawasan yang menakutkan. Ini kerana struktur model membolehkannya mengekod maklumat melalui perwakilan vektor padat — dalam bentuk pembenaman kontekstual — yang menangkap perkaitan antara perkataan dan konsep.
Tetapi di sinilah perkara terbongkar. Apabila model ditugaskan dengan situasi yang memerlukan generalisasi luar pengedaran, bermakna menghadapi konsep yang tidak pernah dilatih sebelum ini, sistem tidak membuat kesimpulan perkara seperti yang dilakukan manusia. Fikirkan seperti ini: model ini sememangnya mesin corak , bergantung pada "perasaan usus" statistik. Mereka tidak mempunyai keupayaan terbina dalam untuk mencipta atau menaakul "di atas data."
Contohnya, pertimbangkan cara GPT mempelajari peraturan tatabahasa. Ia seperti seseorang yang duduk untuk menghafal beribu-ribu cara perkataan digunakan dalam ayat bahasa Inggeris. Selepas pemerhatian yang mencukupi, sistem membina peta dalaman yang mengetahui, "Ah, selepas subjek datang kata kerja, kemudian mungkin objek, dan masukkan artikel atau preposisi mengikut keperluan." Tetapi apabila dibentangkan dengan bahasa baharu atau struktur ayat yang sepenuhnya baru, kebolehan ini menjadi goyah kerana ia terhad kepada hanya mengenali perhubungan terpendam (atau tersirat) yang telah dilihatnya.
Ini, malangnya, mempunyai hadnya. Ambil tugasan di mana ia perlu menjana teks yang koheren tentang subjek yang tidak terdedah, katakan penemuan terobosan dalam topik fizik yang kurang dikenali seperti dualiti kuantum-graviti . Model ini tidak mempunyai komposisi yang diperlukan untuk mentafsir semula pengetahuan lama untuk membuat kesimpulan kemungkinan baru. Dalam otak manusia kita, kita sentiasa mempunyai perwakilan peringkat lebih tinggi (konsep, teori, analogi!) yang memberikan kita kelonggaran. GPT, bagaimanapun, tidak! Ia menghasilkan keputusan berdasarkan kemungkinan ramalan , bukan lompatan kreatif.
Ia sama seperti memandu dengan peta yang dipraprogramkan hanya untuk laluan dari abad yang lalu: ia tidak membantu anda menavigasi dalam pembinaan atau melalui liku-liku yang muncul dalam enam bulan lalu.
Satu batu loncatan ke arah memahami batasan ialah mengiktiraf peranan perwakilan padat vs jarang .
Apa yang saya maksudkan dengan ini?
Model pengubah tradisional beroperasi dengan benam vektor padat . Setiap token dalam ayat diwakili oleh vektor berdimensi tinggi, dan vektor ini menangkap pelbagai jenis perhubungan antara perkataan — struktur sintaksis, makna semantik, dinamik kedudukan, dll. Tetapi kerana perwakilan ini padat, ia tidak cukup terungkai untuk menyokong abstraksi dengan cara yang membawa kepada generalisasi yang fleksibel dan adaptif.
Pembenaman padat dihadkan oleh pertukaran bias-varian semasa latihan model. Pertukaran ini penting: dengan mengoptimumkan satu perkara (kecekapan statistik am), model itu mengorbankan sesuatu yang lain (keupayaan untuk membuat alasan merentas situasi yang benar-benar baru). Bayangkan anda sentiasa menyesuaikan model mental anda agar sepadan dengan dunia yang telah anda alami; pertukarannya ialah senario yang tidak dapat diramalkan menyebabkan anda hilang sepenuhnya. Model statistik yang rumit tetapi tegar secara semula jadi bergelut dengan kes sekali sahaja kerana mereka cemerlang dalam mengulangi "senario purata" dan membeku dalam menghadapi pengecualian kepada peraturan yang dipelajari.
Penyelesaian utama yang berpotensi di sini ialah perwakilan yang jarang — teknik untuk mencipta dimensi yang merungkai pelbagai ciri pada tahap tafsiran yang berbeza. Rangkaian jarang mengekspresikan dan mendapatkan maklumat dengan cara yang lebih fleksibel dan umum, sama seperti cara manusia menumpukan pada ciri teras utama dalam meramalkan hasil daripada mementingkan butiran yang lebih kecil.
Oleh itu, satu masalah dengan generalisasi satu pukulan ialah struktur rangkaian moden tidak menekankan tugas pengasingan seperti itu — ia terlalu bergantung pada corak padat yang dipacu data. Oleh itu, apabila diminta untuk membuat generalisasi bahan yang benar-benar baru dan unik dengan konteks yang minimum, mereka gagal.
Nasib baik, kami tidak kehabisan idea sepenuhnya. Penyelidik AI (termasuk saya sendiri!) telah mula berteori tentang beberapa cara untuk meningkatkan kebolehan generalisasi satu pukulan AI. Beberapa pendekatan yang paling menarik berkisar pada seni bina meta-pembelajaran . Seni bina ini pada asasnya berbeza daripada model hari ini, membolehkan keupayaan belajar-untuk-belajar di mana sistem menyesuaikan parameternya secara dinamik agar sesuai dengan jenis data baharu dengan pantas — lebih sejajar dengan tingkah laku seperti manusia.
Dalam Model-Agnostic Meta-Learning (MAML) , misalnya, model menyesuaikan dirinya untuk mempelajari tugas baharu dengan contoh latihan yang minimum. Rangkaian Neural Ditambah Memori (MANN) berfungsi sama dengan mengekalkan konteks yang dipelajari merentas berbilang kejadian, sama seperti cara kita mengingati pelajaran penting dari masa lalu dan menggunakannya semula secara intuitif apabila menghadapi situasi yang lebih baharu dan serupa.
Mengintegrasikan keupayaan penaakulan simbolik ke dalam model pembelajaran mendalam adalah satu lagi pendekatan yang menjanjikan. Model yang dilengkapi dengan komponen simbolik boleh 'menaakul' melalui logik, dan bukannya hanya bergantung pada tindanan statistik. Bidang seperti AI Neuro-Symbolic menawarkan gabungan model sambungan dan sistem berasaskan peraturan yang membolehkan AI meniru pemikiran aras tinggi, terutamanya dalam senario penaakulan abstrak.
Jadi apakah maksud semua ini untuk masa depan AI? Pasti, GPT-4 terasa seperti ajaib apabila ia memberikan kami interaksi perkhidmatan pelanggan yang fasih atau menjawab soalan biasa, tetapi kami perlu membangunkan model yang bukan sekadar enjin hafalan. Kami menuju ke arah masa depan di mana pemindahan pembelajaran , meta-pembelajaran dan seni bina neuro-simbolik berkumpul untuk mewujudkan lebih banyak pelajar yang menyesuaikan diri.
The One-Shot Generalization Paradox bukanlah jalan buntu apokaliptik untuk AI. Ini adalah halangan yang membuatkan kita memikirkan semula andaian teras tentang kecerdasan dan fleksibiliti. Memandangkan data sahaja tidak akan membetulkannya — model memerlukan kebolehan untuk belajar daripada abstraksi , mencipta analogi dan mengingati ciri teras , bukan hanya menghafal.
Model masa depan kami perlu lebih manusia daripada mesin apabila ia berkaitan dengan sintesis pengetahuan. Dan sebagai penyelidik, pembangun dan inovator di peringkat termaju, kami masih di peringkat awal untuk mentakrifkan maksud AI untuk belajar — dengan sendirinya — dalam dunia novel yang benar-benar fleksibel.
Ini bukan sekadar cabaran teknikal. Ia adalah satu falsafah.