Bangwadi: . (1) David Raposo, Google DeepMind le ka seabe se se lekanang; (2) Sam Ritter, Google Mogopolo o Tebileng; (3) Blake Richards, Google DeepMind le Yunibesithi ya McGill & Mila; (4) Timothy Lillicrap, Google Monagano o Tebilego; (5) Peter Conway Humphreys, Google Monagano o Tebilego; (6) Adam Santoro, Google DeepMind le ka seabe se se lekanago.

Tlhokomedišo ya morulaganyi: ye ke karolo ya 1 ya 5 ya nyakišišo yeo e hlalošago ka botlalo tsela ya go dira gore dika tša polelo tše di theilwego go transformer di šome gabotse ka go aba methopo ya khomphutha ka maatla. Bala tše dingwe ka mo tlase.

Tafole ya Dikgokagano

Matseno Bokamorago Go phethagatša Diphetoledi tša Motswako wa Botebo 3.1.1. Go hlaloša tekanyetšo ya go bala

3.2.2. Routing go dikologa diboloko transformer

3.3.3. Dikema tša go sepela ka tsela

3.4.4. Routing phethagatšo ya

3.5.5. Go tšea mehlala le 3.6. Mekgwa ya tlwaetšo Dipoelo 4.1.1. Thupelo, dipapišo tša isoFLOP

4.2.2.1. Tekolo ya go boela morago ya go itiriša le 4.3. Motswako-wa-Botebo-le-Ditsebi (MoDE) . Poledišano le Ditšhupetšo





Mehlala ya polelo ye e theilwego godimo ga diphetoledi e phatlalatša di-FLOP ka go swana go ralala le tatelano ya ditseno. Mošomong wo re bontšha gore ditransfoma go e na le moo di ka ithuta go aba ka go fetoga ga di-FLOP (goba go bala) maemong a itšego ka tatelano, go dira gore kabo e šome gabotse go bapa le tatelano bakeng sa magato a go fapana go ralala le botebo bja mohlala. Mokgwa wa rena o gapeletša tekanyetšo ya palomoka ya go bala ka go lekanyetša palo ya ditšhupetšo (b) tšeo di ka tšeago karolo go dipalopalo tša go itlhokomela le tša MLP ka legato le le filwego. Ditšhupetšo tšeo di swanetšego go šongwa di laolwa ke netiweke ka go šomiša mokgwa wa go sepetša wa godimo-b. Ka ge x e hlalošitšwe a priori, tshepedišo ye e bonolo e šomiša kerafo ya go bala ya go se fetoge yeo e nago le bogolo bja tensor bjo bo tsebjago, go fapana le dithekniki tše dingwe tša go bala ka maemo. Le ge go le bjalo, ka ge boitšhupo bja ditšhupetšo tša I bo seela, mokgwa wo o ka diriša di-FLOP ka tsela yeo e sa swanego go ralala le ditekanyo tša botebo bja nako le bja mohlala. Ka go realo, tšhomišo ya go bala e ka bolelelwa pele ka botlalo ka palomoka, eupša e fetoga e bile e na le tlhokomelo ya seemo maemong a leswao. Ga se feela gore dika tšeo di tlwaeditšwego ka tsela ye di ithuta go aba khomphutha ka go fetoga, di dira bjalo ka bokgoni. Mehlala ye e swana le tshepedišo ya motheo ya FLOPS ye e lekanago le dinako tša tšhupamabaka ya lebota go tlwaetša, eupša di nyaka karolwana ya di-FLOP ka go feta pele, gomme e ka ba godimo ga 50% ka lebelo go gata nakong ya go tšea mehlala ka morago ga tlwaetšo.

1. Matseno

Ga se mathata ka moka ao a nyakago nako e swanago goba maiteko a go rarolla. Ka go swana, ka go dira mohlala wa polelo ga se ditšhupetšo ka moka le tatelano tšeo di nyakago nako ye e swanago goba maiteko a go dira ponelopele ka nepo. Gomme le ge go le bjalo, dikai tša transformer di diriša palo ye e swanago ya go bala ka leswao ka go feta pele. Ka kgopolo, ditransfoma di be di tla šomiša ditekanyetšo tše nnyane tša palomoka ya go bala ka go se diriše dikhomphuthara go sa nyakege.





Dipalopalo tša maemo ke thekniki yeo e lekago go fokotša palomoka ya go diriša dikhomphuthara ka go e diriša fela ge go nyakega (Bengio et al., 2016; Bengio, 2013; Bengio et al., 2013). Dialgoritmo tše di fapafapanego di fa ditharollo tša gore go swanetše go šomišwa neng le gore go šomišwe khomphutha ye kaakang (Ainslie et al., 2023; Bapna et al., 2020; Fedus et al., 2022). Le ge go le bjalo, ditlhamo tša kakaretšo tša bothata bjo bjo bo hlohlago di ka no se šome gabotse le dithibelo tša didirišwa tša go šoma tše di lego gona ka ge di na le tshekamelo ya go tsebagatša dikerafo tša go šomiša dikhomphuthara tše di fetogago (Dehghani et al., 2018; Graves, 2016). Mekgwa ya go dira dikhomphuthara ya maemo yeo e holofetšago kudu go e na le moo e ka ba yeo e dumelelanago le mokgobo wa rena wa bjale wa didirišwa tša go šoma, wo o etiša pele dikerafo tša go dira dikhomphuthara tše di sa fetogego, le bogolo bja tensor bjo bo tsebjago bjo bo kgethilwego go godiša tšhomišo ya didirišwa tša go šoma ka thata.





Mo re ela hloko bothata bja go dira mohlala wa polelo ka go šomiša tekanyetšo ya go bala ya go se fetoge yeo e ka dirwago ka fase ga yeo e šomišwago ke transformer ya vanilla. Neteweke e swanetše go ithuta ka moo e ka abago ka go fetoga khomphutha ye e lego gona ka go tšea diphetho ka leswao, ka legatong le lengwe le le lengwe, mabapi le moo e ka dirišago khomphutha go tšwa tekanyetšong ye e lego gona. Ka phethagatšo ya rena palomoka ya go bala e hlalošitšwe mosediriši ebile ga e fetoge pele ga tlwaetšo, go e na le go ba mošomo wa diphetho tša netweke ya go fofa. Ka gona, dipoelo tša bokgoni bja didirišwa tša go šoma ka thata—tše bjalo ka go fokotšega ga kgato ya maoto ya memori, goba go fokotšega ga di-FLOP ka go feta ga pele—di ka letelwa le go dirišwa gampe e sa le pele. Bjalo ka ge re tla bontšha, dipoelo tše di ka ba gona ntle le go gafa tshepedišo ka kakaretšo.





Re diriša mokgwa wo o swanago le ditransfoma tša Motswako wa Ditsebi (MoE), tšeo go tšona diphetho tša go sepela tša maemo a leswao tše di fetogago di dirwago go ralala le botebo bja netweke. Go tloga go MoE, re kgetha go diriša dipalo go leswao (bjalo ka ge go tla ba bjalo ka transformer ya maemo), goba go e fetiša ka kgokagano ya mašaledi (go dula e sa fetoge le go boloka khomphutha). Gape go fapana le MoE, re diriša tsela ye go bobedi di-MLP tša pele le tlhokomelo ya dihlogo tše dintši. Ka ge se ka fao se ama gape dinotlelo le dipotšišo tšeo re di šomago, tsela ga e tšee diphetho fela mabapi le gore ke ditšhupetšo dife tšeo di swanetšego go mpshafatšwa, eupša gape le gore ke ditšhupetšo dife tšeo di dirwago gore di hwetšagale gore di hlokomelwe. Re bitša leano le bjalo ka Motswako-wa-Botebo (MoD) go gatelela ka moo ditšhupetšo ka botee di fetago ka gona ka dipalo tše di fapanego tša dillaga, goba diboloko, ka botebo bja transformer (bona seswantšho 1).





The MoD thekeniki e boetse e lumella motho ho trade-off tshebetso le lebelo. Ka lehlakoreng le lengwe, motho a ka tlwaetša transformer ya MoD yeo e kaonafatšago godimo ga ditransfoma tša vanilla ka go fihla go 1.5% ka maikemišetšo a mafelelo a tlwaetšo ya kgonagalo ya log bakeng sa di-FLOP tša tlwaetšo tše di lekanago (isoFLOP), gomme mola a tšea palo e lekanago ya nako ya lebota-tšhupamabaka go tlwaetša. Ka lehlakoreng le lengwe, motho a ka tlwaetša transformer ya MoD yeo e fihlelelago parity ya tahlegelo ya tlwaetšo ka transformer ya vanilla ye e loketšego ya isoFLOP, eupša yeo e šomišago karolwana ya di-FLOP (go ya godimo ga 50%) ka go feta ga pele, gomme ka fao e le ka lebelo go gata. Mmogo, dipoelo tše di ra gore ditransfoma tša MoD di ithuta go sepela ka bohlale (ke gore, go tlola dipalopalo tšeo di sa nyakegego) ka ge di ka fihlelela dikgonagalo tša log tše di lekanago goba tše kaone ka tatelano go sa šetšwe kgato ya maoto ye nnyane ya FLOP ka go feta ga pele.





Pampiri ye e hwetšagala go arxiv ka fase ga laesense ya CC BY 4.0 DEED.