AI Generatif tidak lepas dari angin puyuh teknologi. Model seperti GPT-4 telah melanda dunia dengan kapasiti nyata mereka untuk menghasilkan teks yang meniru perbualan manusia, menulis esei, kod, dan juga menghasilkan penyelesaian kreatif untuk beberapa tugas yang agak rumit. Kami sentiasa menghampiri masa depan yang dibantu AI, di mana pembantu digital kami akan memahami dan bertindak balas terhadap keperluan kami dengan mudah. Cukuplah untuk menjadikan sesiapa sahaja yang beriman, bukan?  Nah, hampir… tetapi tidak cukup.  Lihat, di bawah kilauan keluaran GPT yang cemerlang dan kehalusan tatabahasanya adalah batasan asas, yang menyebabkan ramai daripada kita ahli teknologi gila:   Isu yang kelihatan mudah (namun mengecewakan) ini mendedahkan jurang utama dalam sistem AI semasa. Walaupun dapat mensintesis petikan yang mengagumkan daripada berbilion titik data, apabila ditugaskan dengan kebaharuan sebenar – sesuatu yang tidak pernah dilihat atau dilatih sebelum ini – model gaya GPT melanda dinding yang sedia ada. AI generatif bergelut untuk mengendalikan maklumat baharu sepenuhnya, terutamanya dalam senario pembelajaran sekali sahaja.  Ini melukiskan gambaran tentang apa yang saya panggil   : tidak kira betapa berkuasanya, tidak kira betapa 'pintar' sistem AI seperti GPT kelihatan, mereka runtuh apabila diperlukan untuk membuat generalisasi dengan cepat daripada hanya segelintir atau segelintir kecil. contoh yang tidak kelihatan. "Paradoks Generalisasi Satu Pukulan"  Mari kita bongkarkan sedikit paradoks ini dan selami   di sebaliknya. Tetapi jangan risau, kami tidak akan mengekalkan falsafah ini semata-mata — kami akan masuk ke dalam lumpur teknikal dan meneroka apa sebenarnya yang menghalang AI gen semasa kami daripada memadankan fleksibiliti ajaib yang ada pada manusia apabila berhadapan dengan perkara yang tidak dikenali. mengapa  Keajaiban dan Mekanisme Model Generatif... Sehingga Mereka Putus  Kecemerlangan teras model seperti GPT-4 terletak pada   yang canggih, yang terkenal dengan kuasa segala-galanya daripada model bahasa kepada tugas penglihatan. Sekarang, saya tidak mahu menyibukkan anda dengan jargon pada awal bahagian ini (kami baru bermula), tetapi beberapa lapisan teknologi perlu dibongkar untuk memahami di mana dan sebab retakan mula kelihatan. seni bina Transformer  Sebagai permulaan, GPT tergolong dalam keluarga   , dilatih untuk meramal perkataan atau token seterusnya dalam mana-mana bahagian teks tertentu. Bagaimana mereka menjadi begitu baik dalam hal ini? Sebahagian besarnya, ini disebabkan oleh   yang dibina ke dalam   , yang membolehkan model ini menapis sejumlah besar teks dan pada asasnya "memfokus" pada bahagian penting ayat sambil melihat perkataan di seluruh jujukan. Mekanisme perhatian global ini dengan pantas menjadi tulang belakang untuk menangkap makna sensitif konteks dalam sebahagian besar teks. model berasaskan jujukan mekanisme perhatian diri Transformer  Tetapi inilah inti paradoks: Generatif AI   bergantung pada data latihan ini. Ia luar biasa dalam mengenali corak dan hubungan statistik antara token dalam data yang dilihat sebelum ini, tetapi ia juga bergantung pada data tersebut. Apabila model itu dikeluarkan, GPT-4   tidak belajar menaakul atau mengembangkan pemahaman tentang dunia. Sebaliknya, ia memanfaatkan persatuan yang telah diambilnya merentas berbilion-bilion contoh teks yang ditemui dalam talian (dalam buku, Wikipedia, utas Reddit, kertas akademik... sebut sahaja). sangat sebenarnya  Jadi, walaupun GPT mungkin berasa seperti oracle yang melihat segala-galanya, menghasilkan teks yang koheren dan kadangkala bernas, apa   dilakukannya ialah memainkan permainan padanan corak kemungkinan yang mengagumkan. Maksudnya? Apabila sesuatu yang baharu datang (seperti kertas saintifik serba baharu tentang mekanik kuantum atau beberapa jargon khusus industri khusus), sukar untuk memahaminya secara bermakna. yang sebenarnya  Ia... tidak mengira.  Tunggu. Tetapi Mengapa Ia Tidak Boleh Digeneralisasikan Seperti Manusia?  Sekarang, di sinilah manusia berbeza dengan ketara daripada mesin. Bayangkan anda membaca tentang konsep yang benar-benar di luar kepakaran anda buat kali pertama. Mungkin anda seorang pengasas permulaan teknologi yang mengemudi dunia kejuruteraan mekanikal. Sudah tentu, anda mungkin tidak menyambungkan semua titik pada bacaan baca pertama — tetapi selepas melihat beberapa contoh atau rajah, beberapa pancaran mentol lampu intuitif akan padam.   Dan kemudian, lihat dan lihat, anda mendapatnya (atau sekurang-kurangnya kebanyakannya). Aha, ini adalah sistem kawalan! Ini bersambung dengan itu!  Nuansa ini dipanggil   — keupayaan untuk mengambil corak dengan cepat atau memahami maklumat yang benar-benar baharu berdasarkan contoh minimum. Dan ia adalah sesuatu yang sangat baik oleh manusia. Kami mengambil secebis pengetahuan dan secara intuitif memetakannya kepada tema, struktur atau analogi yang lebih luas yang telah kami ketahui. Dalam erti kata lain, kita tidak memerlukan sejuta contoh atau korpus besar data masa lalu untuk mendapat epiphany. generalisasi satu pukulan  Sebaliknya, model generatif   tentang dunia sama sekali. Mereka berjalan secara rawak melalui ruang statistik dan membuat ramalan berdasarkan perkataan atau struktur mana yang paling mungkin berlaku bersama. Oleh itu, apabila mereka diminta untuk mengendalikan sesuatu yang benar-benar novel — istilah saintifik yang sama sekali baharu, teori baharu yang tidak pernah diterbitkan dalam talian — mereka mula-mula menjejak ke dinding. Ringkasnya,   , dan mereka tidak mempunyai rangka kerja konseptual yang tulen untuk membuat lompatan ke atas wilayah yang tidak dikenali. tidak mempunyai pemahaman semula jadi mereka tidak pernah menemuinya sebelum ini  Baiklah, itu agak abstrak. Izinkan saya memecahkan ini lebih lanjut.  Model AI Generatif belajar dengan   antara titik data sedia ada. Bermakna, mereka menjadi pakar dalam   antara mata yang telah mereka lihat dan corak yang mereka biasa, tetapi bergelut dengan   , iaitu, melompat keluar dan membuat unjuran berdasarkan konsep baharu apabila data latihan tidak mempunyai preseden. Sebagai contoh, GPT-4 boleh mengendalikan pembinaan linguistik "biasa" dalam bahasa harian dengan baik kerana terdapat berjuta-juta contoh yang tersedia. Tetapi, lemparkan permintaan untuk muncul, idea-idea hiper khusus - katakan, spesifik kemajuan terkini dalam   dalam fizik - dan ledakan: omong kosong mutlak. kenapa? GPT tidak mempunyai sebarang titik rujukan statistik untuk niche, istilah baru. Ia pada asasnya telah meneka tekaan bahawa, walaupun masuk akal dalam kelancaran, mengorbankan   untuk   . menginterpolasi mengisi jurang ekstrapolasi laser gentian solitonik koheren sebenar ketepatan sintaksis  Teras Teknikal Masalah  Baiklah, jika anda berfikiran lebih teknikal, mari kita menyelami lebih mendalam mengapa had ini sangat degil, dan apa yang berlaku di bawah hud semasa percubaan pembelajaran sekali sahaja.  Satu isu utama dengan generalisasi satu pukulan ialah mengenai maklumat yang diwakili oleh model secara dalaman semasa   . Model gaya GPT berkelakuan agak baik apabila bekerja dalam had — fenomena yang sering digambarkan sebagai   . Dalam sempadan topik, ia telah melihat contoh latihan yang cukup luas, malah GPT-4 boleh menghasilkan output yang berwawasan yang menakutkan. Ini kerana struktur model membolehkannya   — dalam bentuk   — yang menangkap perkaitan antara perkataan dan konsep. latihan penyeliaan sendiri pembelajaran dalam pengedaran mengekod maklumat melalui perwakilan vektor padat pembenaman kontekstual  Tetapi di sinilah perkara terbongkar. Apabila model ditugaskan dengan situasi yang memerlukan generalisasi luar pengedaran, bermakna menghadapi konsep yang tidak pernah dilatih sebelum ini, sistem tidak membuat kesimpulan perkara seperti yang dilakukan manusia. Fikirkan seperti ini: model ini sememangnya   , bergantung pada "perasaan usus" statistik. Mereka tidak mempunyai keupayaan terbina dalam untuk mencipta atau menaakul "di atas data." mesin corak  Contohnya, pertimbangkan cara GPT mempelajari peraturan tatabahasa. Ia seperti seseorang yang duduk untuk menghafal beribu-ribu cara perkataan digunakan dalam ayat bahasa Inggeris. Selepas pemerhatian yang mencukupi, sistem membina peta dalaman yang mengetahui, "Ah, selepas subjek datang kata kerja, kemudian mungkin objek, dan masukkan artikel atau preposisi mengikut keperluan." Tetapi apabila dibentangkan dengan bahasa baharu atau struktur ayat yang sepenuhnya baru, kebolehan ini menjadi goyah kerana ia terhad kepada hanya mengenali perhubungan   (atau tersirat) yang telah dilihatnya. terpendam  Ini, malangnya, mempunyai hadnya. Ambil tugasan di mana ia perlu menjana teks yang koheren tentang subjek yang tidak terdedah, katakan penemuan terobosan dalam topik fizik yang kurang dikenali seperti   . Model ini tidak mempunyai   yang diperlukan untuk mentafsir semula pengetahuan lama untuk membuat kesimpulan kemungkinan baru. Dalam otak manusia kita, kita sentiasa mempunyai perwakilan peringkat lebih tinggi (konsep, teori, analogi!) yang memberikan kita kelonggaran. GPT, bagaimanapun, tidak! Ia menghasilkan keputusan berdasarkan   , bukan lompatan kreatif. dualiti kuantum-graviti komposisi kemungkinan ramalan  Ia sama seperti memandu dengan peta yang dipraprogramkan hanya untuk laluan dari abad yang lalu: ia tidak membantu anda menavigasi dalam pembinaan atau melalui liku-liku yang muncul dalam enam bulan lalu.  Mendapatkan Teknikal - Mengapa Ini Berlaku Di Bawah Hud  Satu batu loncatan ke arah memahami batasan ialah mengiktiraf peranan   . perwakilan padat vs jarang  Apa yang saya maksudkan dengan ini?  Model pengubah tradisional beroperasi dengan   . Setiap token dalam ayat diwakili oleh vektor berdimensi tinggi, dan vektor ini menangkap pelbagai jenis perhubungan antara perkataan — struktur sintaksis, makna semantik, dinamik kedudukan, dll. Tetapi kerana perwakilan ini padat, ia   untuk menyokong abstraksi dengan cara yang membawa kepada generalisasi yang fleksibel dan adaptif. benam vektor padat tidak cukup terungkai  Pembenaman padat dihadkan oleh   semasa latihan model. Pertukaran ini penting: dengan mengoptimumkan satu perkara (kecekapan statistik am), model itu mengorbankan sesuatu yang lain (keupayaan untuk membuat alasan merentas situasi yang benar-benar baru). Bayangkan anda sentiasa menyesuaikan model mental anda agar   dengan dunia yang telah anda alami; pertukarannya ialah senario yang tidak dapat diramalkan menyebabkan anda hilang sepenuhnya.   secara semula jadi bergelut dengan kes sekali sahaja kerana mereka cemerlang dalam mengulangi "senario purata" dan membeku dalam menghadapi pengecualian kepada peraturan yang dipelajari. pertukaran bias-varian sepadan Model statistik yang rumit tetapi tegar  Penyelesaian utama yang berpotensi di sini ialah   — teknik untuk mencipta dimensi yang   pada tahap tafsiran yang berbeza. Rangkaian jarang mengekspresikan dan mendapatkan maklumat dengan cara yang lebih fleksibel dan umum, sama seperti cara manusia menumpukan pada ciri teras utama dalam meramalkan hasil daripada mementingkan butiran yang lebih kecil. perwakilan yang jarang merungkai pelbagai ciri  Oleh itu, satu masalah dengan generalisasi satu pukulan ialah struktur rangkaian moden tidak menekankan tugas pengasingan seperti itu — ia terlalu bergantung pada corak padat yang dipacu data. Oleh itu, apabila diminta untuk membuat generalisasi bahan yang benar-benar baru dan unik dengan konteks yang minimum, mereka gagal.  Apa yang Boleh Menyelesaikan Ini?  Nasib baik, kami tidak kehabisan idea sepenuhnya. Penyelidik AI (termasuk saya sendiri!) telah mula berteori tentang beberapa cara untuk meningkatkan kebolehan generalisasi satu pukulan AI. Beberapa pendekatan yang paling menarik berkisar pada seni bina   . Seni bina ini pada asasnya berbeza daripada model hari ini, membolehkan keupayaan belajar-untuk-belajar di mana sistem menyesuaikan parameternya secara dinamik agar sesuai dengan jenis data baharu dengan pantas — lebih sejajar dengan tingkah laku seperti manusia. meta-pembelajaran  Dalam   , misalnya, model menyesuaikan dirinya untuk mempelajari tugas baharu dengan contoh latihan yang minimum.   berfungsi sama dengan   merentas berbilang kejadian, sama seperti cara kita mengingati pelajaran penting dari masa lalu dan menggunakannya semula secara intuitif apabila menghadapi situasi yang lebih baharu dan serupa. Model-Agnostic Meta-Learning (MAML) Rangkaian Neural Ditambah Memori (MANN) mengekalkan konteks yang dipelajari  Mengintegrasikan   ke dalam model pembelajaran mendalam adalah satu lagi pendekatan yang menjanjikan. Model yang dilengkapi dengan komponen simbolik boleh 'menaakul' melalui logik, dan bukannya hanya bergantung pada tindanan statistik. Bidang seperti   menawarkan gabungan model sambungan dan sistem berasaskan peraturan yang membolehkan AI meniru pemikiran aras tinggi, terutamanya dalam senario penaakulan abstrak. keupayaan penaakulan simbolik AI Neuro-Symbolic  Laluan Hadapan?  Jadi apakah maksud semua ini untuk masa depan AI? Pasti, GPT-4 terasa seperti ajaib apabila ia memberikan kami interaksi perkhidmatan pelanggan yang fasih atau menjawab soalan biasa, tetapi kami perlu membangunkan model yang bukan sekadar enjin hafalan. Kami menuju ke arah masa depan di mana   ,   dan   berkumpul untuk mewujudkan lebih banyak pelajar yang menyesuaikan diri. pemindahan pembelajaran meta-pembelajaran seni bina neuro-simbolik  The One-Shot Generalization Paradox bukanlah jalan buntu apokaliptik untuk AI. Ini adalah halangan yang membuatkan kita memikirkan semula andaian teras tentang kecerdasan dan fleksibiliti. Memandangkan data sahaja tidak akan membetulkannya — model memerlukan kebolehan untuk   ,   dan   , bukan hanya menghafal. belajar daripada abstraksi mencipta analogi mengingati ciri teras  Model masa depan kami perlu lebih manusia daripada mesin apabila ia berkaitan dengan sintesis pengetahuan. Dan sebagai penyelidik, pembangun dan inovator di peringkat termaju, kami masih di peringkat awal untuk mentakrifkan maksud AI untuk belajar — dengan sendirinya — dalam dunia novel yang benar-benar fleksibel.  Ini bukan sekadar cabaran teknikal. Ia adalah satu falsafah.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Read My Stories

Software Engineer

Audio ini dihasilkan dalam bahasa asal cerita!

Paradoks Generalisasi Satu Pukulan: Mengapa AI Generatif Bergelut Dengan Maklumat Baharu

About Author

KOMEN

GANTUNG TANDA

ARTIKEL INI DIBENTANGKAN DALAM

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps