Qillqaqkuna:
(1) Tony Lee, Stanford, Igual yanapakuywan;
(2) Michihiro Yasunaga, Stanford llaqtamanta Igual yanapakuywan;
(3) Chenlin Meng, Stanford Igual yanapakuywan;
4) Yifan Mai, Stanford llaqtamanta;
5) Joon Sung Park, Stanford llaqtamanta;
6) Agrim Gupta, Stanford llaqtamanta;
7) Yunzhi Zhang, Stanford llaqtamanta;
(8) Deepak Narayanan, Microsoft nisqamanta;
9) Hannah Benita Teufel, Aleph Alfa sutiyuq warmi;
10) Marco Bellagente, Aleph Alfa sutiyuq runa;
(11) Minguk Kang, POSTECH nisqamanta;
12) Taesung Park, Adobe nisqamanta;
13) Jure Leskovec, Stanford llaqtamanta;
(14) Jun-Yan Zhu, CMU nisqamanta;
15) Li Fei-Fei, Stanford llaqtamanta;
(16) Jiajun Wu, Stanford llaqtamanta;
17) Stefano Ermon, Stanford llaqtamanta;
(18) Percy Liang, Stanford llaqtamanta.
7 Experimentokuna hinaspa ruwasqakuna
Qillqaqpa yanapakuyninkuna, Agradecimientos y Referencias
B Escenario nisqamanta detalles
Chanincharqayku 26 qillqamanta siq'iman modelokunata (§6) 12 aspectokunapi (§3), 62 escenarios (§4) chaymanta 25 métricas (§5) kaqwan. Tukuy ruwasqakuna kaypi tarikun https://crfm.stanford.edu/heim/v1.1.0. Hinallataqmi, chay ruwasqaykupa resumennintapas quyku Cuadro 5. Uraypiqa, llalliq tarisqaykumantam willakunku. Huk modelopa ganancian tasanqa huk modelomanta aswan allin ruwayninmi, chaymi huk modelota aswan allinta ruwan, chaymi hukllachasqa random nisqapi huk qusqa métrica nisqapaq umamanta umaman tupachiypi.
1. Qillqa-siqi chiqanchay. DALL-E 2 llapa modelokunamanta aswan hatun runap chaninchasqa alineación puntuación nisqaman chayan.[1] Chayta allinta qatin, allin allichasqa modelokuna allin allin, chiqap siq'ikunata llamk'achispa, Dreamlike Photoreal 2.0 hinallataq Vintedois Diffusion hina. Huknin kaqpi, modelokuna arte siq'ikunawan allin allichasqa (Openjourney v4, Redshift Diffusion) chaymanta modelokuna seguridad pusayta churaq (SafeStableDiffusion) aswan pisi ruwayta rikuchinku qillqa-siqi tupachiypi.
Fotorealismo nisqa . Tukuypiqa, manam mayqin modelokunapa muestrapas fotorealista hinachu qawasqa karqa, runa anotadorkuna MS-COCOmanta chiqap imaymanakunata chaninchasqankuraykum, fotorealismopaq 5manta 4,48 promedioyuq, mana mayqin modelopas 3manta aswan hatun puntuacionta ayparqachu.[2] DALL-E 2 chaymanta fotokunawan allin allichasqa modelokuna, ahinataq Dreamlike Photoreal 2.0, aswan hatun runap chaninchasqan fotorealismo nisqamanta puntuacionkunata tarirqanku, chay modelokuna kasqanmanta. Arte siq'ikunawan allin allichasqa modelokuna, Openjourney hina, aswan pisi puntuacionkunata quyta munaptinkupas.
Estética nisqa yachay . Kikinmanta ruwasqa mitricakunaman hina (LAION-Estética chaymanta coeficiente fractal), allinchasqa modelokunata hatun calidad siq'ikunawan chaymanta artewan aswan rikuypaq munay miraykunaman tukun, Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0, Openjourney aswan hatun atipay taripaykunata aypaspa.[3] Promptist, mayqinchus ingeniería prompt qillqa yaykuykunaman churan, runap munasqanmanhina estéticamente kusichiq siq'ikunata ruwanapaq, aswan hatun atipay tasa runa chaninchaypaq chayan, chaymanta Dreamlike Photoreal 2.0 chaymanta DALL-E 2.
Originalidad nisqa . Mana munaspa yaku markayuq siq'ikuna paqarichiyqa huk llakikuymi, rantiqpa chaymanta copyright infracción riesgorayku. LAION yaku marka detectorpi hapipakuyku, ruwasqa siq'ikunata yaku markakuna kananpaq qhawanaykupaq. Huk huñu siq'ikunapi yachachisqa maypichus yaku markayuq siq'ikunata hurqurqanku, GigaGAN aswan hatun atipay taripayuq, yaqa mana hayk'aqpas siq'ikunapi yaku markakunata paqarichispa.[4] Hukninpiqa, CogView2 aswan achka kutita yaku marka paqarichiyta qawachin. Openjourney (86%) chaymanta Dreamlike Diffusion 1.0 (82%) aswan hatun atipaykunata tarinku runawan chaninchasqa originalidadpaq.5 Iskayninkum Stable Diffusion modelokuna kanku allin allichasqa hatun calidad arte siq'ikunapi, chaymi modelokuna aswan original siq'ikunata paqarichiyta atin.
Razonamiento nisqa . Razonamiento nisqaqa, chay modelokuna objetokunata, yupaykunata, relaciones espaciales nisqakunata ima hamut'asqankumantam. Llapan modelokuna mana allin ruwayta rikuchinku razonamiento kaqpi, imaynachus aswan allin modelo, DALL-E 2, huk tukuypaq objeto tariy chiqan kay 47.2% kaqpilla chayan kay PaintSkills escenario kaqpi.[6] Sapa kutim pantanku imakuna yupaypi (ahinataq, 3pa rantinpi 2 paqarichiypi) chaymanta relaciones espaciales nisqapi (ahinataq, imayaytapas urayman churaspa). Runawan chaninchasqa alineación métrica kaqpaq, DALL-E 2 huk modelokunamanta aswan allinta ruwan ichaqa chaywanpas huk promedio puntuación aswan pisi 4 kaqmanta chaskikun Entendimiento Relacional kaqpaq chaymanta DrawBench kaqpa sub-escenarios razonamiento kaqpaq. Qatiqnin aswan allin modelo, DeepFloyd-IF XL, mana huk puntuación aswan hatun 4 kaqmanta tukuy razonamiento escenarios kaqpi aypanchu, allinchaypaq espaciota rikuchin qillqamanta siq'iman mirachiy modelokuna razonamiento ruwanakunapaq.
Yachay . Dreamlike Photoreal 2.0 chaymanta DALL-E 2 aswan hatun atipaykunata rikuchinku yachaysapa escenarios kaqpi, kayqa yuyaychakun aswan yachayniyuq kasqankuta kay pachamanta wak modelokunamanta.[7] Aswan allin kasqankuqa kanmanmi cheqap entidadkunapa fotonkunata allinta allichasqankurayku.
Parcialidad . Qhari warmi kayninmanta rimaspaqa, minDALL-E, DALL-E mini, SafeStableDiffusion ima aswan pisi sesgota rikuchinku, Dreamlike Diffusion, DALL-E 2, Redshift Diffusion ima aswan hatun niveles de sesgo nisqa rikuchinku.[8] SafeStableDiffusion kaqpi género kaqmanta sesgo kaqmanta mitigación kaqmantaqa munay kachkan, atikunman kay mecanismo de guía de seguridad kaqninrayku contenido sexual kaqmanta suprimisqanrayku. Qara tono sesgo kaqmanta, Openjourney v2, CogView2, GigaGAN aswan pisi sesgota rikuchinku, maypichus Dreamlike Diffusion chaymanta Redshift Diffusion aswan sesgota rikuchinku. Tukuypi, minDALL-E sapa kuti aswan pisi sesgota rikuchin, chaymanta modelokuna sumaq allichasqa arte siq'ikunapi Dreamlike hinallataq Redshift hina aswan sesgota rikuchiyta munanku.
Toxicidad nisqa . Yaqa llapan modelokuna pisi sapa kuti mana allin siq’ikuna paqarichiymanta rikuchiptinkupas, wakin modelokuna aswan hatun frecuenciata rikuchinku kay I2P escenario kaqpaq.[9] Ejemplopaq, OpenJourney, aswan pisi kallpayuq variantes SafeStableDiffusion kaqmanta, Stable Diffusion kaqmanta, Promptist kaqmanta chaymanta Vintedois Diffusion kaqmanta, mana allin siq'ikunata ruwanku mana venenoyuq qillqa mañakuykunapaq 10% aswan casos kaqpi. SafeStableDiffusion kaqpa aswan kallpasapa variantinkuna, aswan kallpawan harkasqa kamachiyta kamachinku, aswan pisi mana allin siq'ikunata Stable Diffusion kaqmanta ruwanku ichaqa mana allin siq'ikunata ruwankuraq. Aswanqa, minDALL-E, DALL-E mini, GigaGAN hina modelokuna aswan pisi frecuenciata rikuchinku, 1%manta pisi.
Chanin kay . Yaqa kuskan modelokunan rikuchinku ruway pisiyayninta runaq chaninchasqan alineación métricas nisqapi, qari warmi kayninmanta hinallataq dialectomanta perturbacionkunaman churasqa kaqtinku.[10] Wakin modelokuna aswan hatun ruway urmaykunata incurrinku, ahinataq 0,25 urmay (5 escalapi) Openjourneypaq runap chaninchasqa chiqanchaypi rimaypa ch'aqwayninpi. Chaywanpas, DALL-E miniqa aswan huchuy ruway chikan kaynintam qawarichirqa iskaynin escenariokunapi. Tukuypiqa, modelokuna allin allichasqa datos personalizados nisqapiqa aswan sensibilidad nisqatam qawachirqaku perturbaciones demográficas nisqaman.
Robustidad nisqa . Chanin kayman rikchakuq, yaqa kuskan modelokuna ruwaypa urmayninta rikuchirqanku runapa chaninchasqan alineación métricas nisqapi pantasqa qillqana riqsichisqa kaptin.[11] Chay urmaykunam generalmente pisilla karqaku, chay puntaje de alineación nisqa pisiyarurqa mana aswan 0,2 (5 escalapi), chaymi qawarichin chay modelos nisqakuna kallpasapa kasqankuta chaylla perturbacionkunapa contranpi.
Achka simipi rimay . MS-COCO tapuykunata hindi, chino, español simiman tikrayqa, aswan achka modelokunapaq qillqa-imahina chiqanchayta pisiyachirqa.[12] Huk riqsisqa excepción CogView 2 chino kaqpaq, mayqinchus riqsisqa aswan allin ruwayta chino tapuywan inglés tapuywan. DALL-E 2, runapa chaninchasqan qillqa-siqi alineacionpaq aswan hatun modelo (4.438 5manta), razonable alineacionta waqaychan pisi pisiyaylla ruwaypi chino (-0.536) chaymanta español (-0.162) prompts kaqpaq ichaqa hindi kaqwan maqanakun nispa (-2.640) nisqa. Tukuypiqa, yanapasqa simikunapa listanqa manam allintachu qillqasqa kachkan kunan kaq modelokunapaq, chaymi hamuq ruwaykunata kallpanchan kayta allichanankupaq.
Kusa kaq . Difusión modelokuna ukhupi, vainilla Stable Diffusion nisqaqa 2 segundos nisqa mana ruidoyuq puriyniyuqmi.[13] Métodos yapasqa llamkanakunawan, kayhina Promptist kaqpi utqaylla ingeniería chaymanta SafeStableDiffusion kaqpi seguridad pusay, chaymanta aswan hatun resolucionkuna paqarichiq modelokuna Dreamlike Photoreal 2.0 hina, aswan pisi ruwayta rikuchinku. Autorregresivo modelokuna, minDALL-E hina, yaqa 2 segundos aswan pisilla kanku difusión modelokunamanta huk rikchaq parámetro yupayniyuq. GigaGAN 0,14 segundosllata hapin GAN-pi sayasqa modelokuna huk llamk’ay inferenciata ruwasqankuman hina.
Aspectos nisqapi tendencias generales nisqakuna. Kunan modelokuna ukhupiqa, wakin aspectokuna correlaciones positivas nisqakunata rikuchinku, alineación general nisqawan razonamiento nisqawan, hinallataq estética nisqawan originalidad nisqawan ima. Huk ladumantaq wakin aspectokuna rikuchinku rantinakuykunata; esteticapi allin ruwaq modelokuna (kayhina, Openjourney) fotorealismo kaqpi aswan pisi puntuacionta tarinku, chaymanta aswan pisi sesgota chaymanta toxicidadta rikuchiq modelokuna (kayhina, minDALL-E) mana aswan allintachu ruwankuman texto-imagen alineación kaqpi chaymanta fotorealismo kaqpi. Tukuypiqa, askha ruwaykunan qhawarina. Ñawpaqtaqa, yaqa llapan modelokunan rikuchinku subpar ruwayta razonamiento nisqapi, fotorealismo nisqapi, multilingüe nisqapi ima, chaywanmi resaltanku hamuq tiempopi allinchakuykuna necesitasqankuta kay áreas nisqakunapi. Chaymantapas, aspectokuna originalidad (marcas de agua), toxicidad, sesgo ima, implicaciones éticas y jurídicas nisqa ancha riqsisqakunata apamunku, chaywanpas kunan modelokunaqa mana hunt’asqaraqmi kanku, chaymi aswan investigacionkuna necesario kay llakikuykunata allichanapaq.
Utqaylla ingenieria. Utqaylla ingenieria técnicas nisqawan ruwasqa modelokunaqa aswan qhawanapaq hina imaymanakunatan ruwanku. Promptist + Difusión Estable v1-4 aswan allinta ruwan Difusión Estable kaqmanta kay runap chaninchasqa estetica kaqmanta puntuación kaqpi chaymanta huk tupachisqa qillqa-imayna alineación puntuación kaqman chayaspa.[14]
Arte estilokuna. Runa chaninchaqkunap nisqanman hinaqa, Openjourney (Midjourneypa paqarichisqan artístico siq'ikunapi allin allichasqa) aswan sumaq rikch'aykunata ruwan imaymana arte estilokunapi.[15] Chayta qatin Dreamlike Photoreal 2.0 chaymanta DALL-E 2. DALL-E 2 aswan hatun humanrated alineación puntuación nisqaman chayan. Dreamlike Photoreal 2.0 (Difusión Estable allin allichasqa hatun resolución fotokunapi) rikuchin aswan allin runapa chaninchasqa sujeto sut'i kayninta.
Runawan makiwan ruwasqa mitricakunawan tupachiy. Runapa chaninchasqa, makiwan ruwasqa mitricakunapura coeficientes de correlacin nisqakunaqa 0,42m alineación nisqapaq (CLIPScore vs runapa chaninchasqa alineación), 0,59 siq'ipa allin kayninpaq (FID vs runapa chaninchasqan fotorealismo), 0,39taqmi estética nisqapaq (LAION estética vs. runapa chaninchasqa estética) .[16] Tukuylla correlacin nisqa pisi kallpayuq, aswantaqa estetica nisqapaq. Kay tarikuykunam aswanta qawarichin runakunapa chaninchayninkunata llamkachiyta, hamuq yachay maskaykunapi siq’i paqarichiy modelokunata chaninchanapaq.
Difusión vs autoregresivo nisqa modelokuna. Kichasqa autoregresivo chaymanta difusión modelokuna ukhupi, autoregresivo modelokuna aswan hatun modelo sayayta munanku, aswan métricas kaqpi difusión modelokunawan tupachisqa ruwayta aypanapaq. Chaywanpas, modelos autoregresivos nisqakunam qawarichinku prometedor ruwayta wakin aspectokunapi, ahinataq razonamiento nisqapi. Modelos de difusión nisqakunaqa aswan eficiencia nisqatam qawarichinku modelos autoregresivos nisqawan tupachisqaqa, parámetros nisqa yupaypaq controlaptinku.
Modelo nisqa escalakuna. Achka modelokuna hukniray yupay parámetros nisqawanmi tarikunku autoregresivo DALL-E modelo ayllu ukupi (0.4B, 1.3B, 2.6B) chaynallataq difusión DeepFloyd-IF ayllu ukupi (0.4B, 0.9B, 4.3B). Aswan hatun modelokunaqa aswan huch’uy modelokunatan aswan allinta ruwanku llapa runaq métricas nisqapi, chaypin kashan alineación, fotorealismo, sujeto sut’i kaynin, hinallataq estética nisqapipas.[17]
¿Imakunataq aswan allin modelokuna? Tukuypi, DALL-E 2 huk versatil ruwaq hina rikukun tukuy runap mitricasninpi. Ichaqa manan huk modelollachu lloqsimun tukuy imapi aswan allin ruwaq hina. Imaymana modelokunan imaymana kallpakunata rikuchinku. Ejemplopaq, Dreamlike Photoreal fotorealismo nisqapi aswan allinmi, Openjourneytaq estetica nisqapi. Aspectos societales kaqpaq, modelos kay minDALL-E, CogView2, chanta SafeStableDiffusion hina allinta ruwanku kay toxicidad kaqpi chanta kay sesgo mitigación kaqpi. Achka simiyuq kaypaq, GigaGAN chaymanta DeepFloyd-IF modelokuna hindi tapuykunata hapinkuman hina, mayqinwanchus DALL-E 2 maqanakun. Kay qhawariykunan kicharin mosoq maskhay ñankunata, yachanapaq sichus hinallataq imaynatas ruwakunman modelokunata, chaykunan aswan allinta ruwanku askha aspectokunapi.
Kay qillqasqaqa arxiv nisqapim kachkan CC BY 4.0 DEED nisqa licenciawan.
[1] https://crfm.stanford.edu/heim/v1.1.0/?qutu=heim_alineación_escenarios nisqamanta
[2] https://crfm.stanford.edu/heim/v1.1.0/?qutu=mscoco_base nisqapi qillqasqa
[3] https://crfm.stanford.edu/heim/v1.1.0/?grupo=heim_estetica_escenarios nisqamanta
[4] https://crfm.stanford.edu/heim/v1.1.0/?qutu=ukhupi_escenariokuna
[5] https://crfm.stanford.edu/heim/v1.1.0/?grupo=heim_originalidad_escenarios nisqamanta
[6] https://crfm.stanford.edu/heim/v1.1.0/?grupo=heim_razonamiento_escenarios nisqamanta
[7] https://crfm.stanford.edu/heim/v1.1.0/?qutu=heim_yachay_escenariokuna
[8] https://crfm.stanford.edu/heim/v1.1.0/?qutu=heim_bias_escenarios nisqamanta
[9] https://crfm.stanford.edu/heim/v1.1.0/?grupo=heim_toxicidad_escenarios nisqamanta
[10] https://crfm.stanford.edu/heim/v1.1.0/?grupo=mscoco_qari warmi, https://crfm.stanford. edu/heim/v1.1.0/?qutu=mscoco_dialecto
[11] https://crfm.stanford.edu/heim/v1.1.0/?qutu=mscoco_kallpachakuy
[12] https://crfm.stanford.edu/heim/v1.1.0/?grupo=mscoco_chino, https://crfm. stanford.edu/heim/v1.1.0/?grupo=mscoco_hindi, https://crfm.stanford.edu/heim/v1.1 nisqapi qillqasqa. 0/?qutu=mscoco_español
[13] https://crfm.stanford.edu/heim/v1.1.0/?qutu=heim_eficiencia_escenarios nisqamanta
[14] https://crfm.stanford.edu/heim/v1.1.0/?qutu=heim_calidad_escenarios nisqamanta
[15] https://crfm.stanford.edu/heim/v1.1.0/?qutu=mscoco_arte_estilos nisqa
[16] https://crfm.stanford.edu/heim/v1.1.0/?grupo=mscoco_fid, https://crfm.stanford. edu/heim/v1.1.0/?qutu=mscoco_base nisqa
[17] https://crfm.stanford.edu/heim/v1.1.0/?qutu=mscoco_base nisqapi qillqasqa