paint-brush
Орус илимпоздору сүрөттүн алдындагы, жашыруун диффузияны колдонуу менен биринчи тексттен сүрөткө архитектурасын иштеп чыгыштытарабынан@autoencoder
Жаңы тарых

Орус илимпоздору сүрөттүн алдындагы, жашыруун диффузияны колдонуу менен биринчи тексттен сүрөткө архитектурасын иштеп чыгышты

тарабынан Auto Encoder: How to Ignore the Signal Noise3m2024/12/18
Read on Terminal Reader

өтө узун; Окуу

Изилдөөчүлөр табигый көрүнгөн сүрөттөрдү өндүрүү үчүн жаңы жашыруун диффузиялык моделин колдонгон Кандинский деп аталган тексттен сүрөткө муун моделин иштеп чыгышты.
featured image - Орус илимпоздору сүрөттүн алдындагы, жашыруун диффузияны колдонуу менен биринчи тексттен сүрөткө архитектурасын иштеп чыгышты
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

Авторлор:

(1) Антон Разжигаев, AIRI жана Skoltech;

(2) Арсений Шахматов, Сбер А.И.;

(3) Анастасия Мальцева, Сбер А.И.;

(4) Владимир Архипкин, Сбер А.И.;

(5) Игорь Павлов, Сбер А.И.;

(6) Илья Рябов, Сбер А.И.;

(7) Ангелина Куц, Сбер AI;

(8) Александр Панченко, AIRI жана Skoltech;

(9) Андрей Кузнецов, AIRI жана Сбер AI;

(10) Денис Димитров, AIRI жана Сбер AI.


Редакциянын эскертүүсү: Бул Кандинскийдин өнүгүшүн чоо-жайын чагылдырган изилдөөнүн 1-бөлүгү, сүрөттүн мурунку жана жашыруун диффузиясынын айкалышынын жардамы менен иштелип чыккан биринчи тексттен сүрөткө архитектурасы. Калганын төмөндө оку.

Шилтемелер таблицасы


Реферат

Тексттен сүрөткө генерация заманбап компьютердик көрүүнүн маанилүү домени болуп саналат жана генеративдик архитектуранын эволюциясы аркылуу олуттуу жакшыртууга жетишти. Алардын арасында сапаттын маанилүү жакшыртууларын көрсөткөн диффузиялык моделдер бар. Бул моделдер жалпысынан эки категорияга бөлүнөт: пикселдик деңгээлдеги жана жашыруун деңгээлдеги ыкмалар. Биз Кандинскийди [1] сунуштайбыз, латенттик диффузиялык архитектуранын жаңы изилдөөсү, мурунку моделдердин сүрөттөлүшүнүн принциптерин жашыруун диффузия ыкмалары менен айкалыштыруу. Сүрөттүн мурунку модели текстти CLIP сүрөттүн кыстаруу картасына түшүрүү үчүн өзүнчө үйрөтүлгөн. Сунушталган моделдин дагы бир айырмаланган өзгөчөлүгү сүрөттүн автокодер компоненти катары кызмат кылган өзгөртүлгөн MoVQ ишке ашыруу болуп саналат. Жалпысынан, иштелип чыккан модель 3.3B параметрлерин камтыйт. Ошондой эле биз колдонуучуга ыңгайлуу демо тутумду орноттук, ал текстти сүрөткө түзүү, сүрөттү бириктирүү, текст жана сүрөттү бириктирүү, сүрөттөрдүн вариацияларын түзүү жана текстти башкарган боёк/сырдоо сыяктуу түрдүү генеративдик режимдерди колдогон. Кошумчалай кетсек, биз Кандинский моделдеринин баштапкы кодун жана текшерүү пункттарын чыгардык. Эксперименттик баа берүүлөр COCO-30K маалымат топтомунда 8.03 FID упайын көрсөтүп, биздин моделибизди өлчөнгөн сүрөттүн сапаты боюнча эң мыкты ачык булак аткаруучусу катары белгилейт.

1 Киришүү

Кыска убакыттын ичинде тексттен сүрөткө моделдердин генеративдик мүмкүнчүлүктөрү кыйла жакшырып, колдонуучуларга фотореалдуу сапат, реалдуу убакыт режиминде болжолдуу ылдамдык, көптөгөн тиркемелер жана функциялар, анын ичинде жөнөкөй колдонууга оңой желе менен камсыз кылууда. - негизделген платформалар жана татаал AI графикалык редакторлору.


Бул документ изилдөөнүн бул динамикалык тармагына жаңы жана инновациялык көз карашты сунуш кылган, жашыруун диффузиялык архитектуралык дизайн боюнча уникалдуу изилдөөбүздү сунуштайт. Биринчиден, биз Кандинскийдин жаңы архитектурасын жана анын деталдарын сүрөттөп беребиз. моделдин ишке ашырылган өзгөчөлүктөрү менен демо системасы да сүрөттөлгөн. Экинчиден, биз сүрөттү түзүү сапаты боюнча жүргүзүлгөн эксперименттерди көрсөтөбүз жана учурдагы ачык булак моделдеринин ичинен эң жогорку FID упайына ээ болобуз. Кошумчалай кетсек, биз эң эффективдүү жана такталган моделдик дизайнга жетүү үчүн ар кандай конфигурацияларды кылдаттык менен талдап, баалоого мүмкүндүк берүүчү мурунку орнотууларды кылдат абляциялык изилдөөнү сунуштайбыз.


Биздин салымдар төмөнкүдөй:


• Биз сүрөткө чейинки жана жашыруун диффузиянын айкалышынын жардамы менен иштелип чыккан биринчи тексттен сүрөткө архитектураны сунуштайбыз.


• Биз FID метрикасы боюнча Stable Diffusion, IF жана DALL-E 2 сыяктуу заманбап (SotA) моделдерине окшош эксперименталдык натыйжаларды көрсөтөбүз жана бардык ачык булак моделдеринин ичинен SotA упайына жетебиз.


• Биз тексттин сүрөтүн түзүү үчүн сунушталган заманбап ыкманы программалык камсыздоону ишке ашырууну камсыз кылабыз жана алдын ала даярдалган моделдерди чыгарабыз. Apache 2.0 лицензиясы моделди коммерциялык эмес жана коммерциялык максаттарда колдонууга мүмкүндүк берет.2 3


• Биз сунуш кылынган ыкманын негизинде тексттик чакырыктар менен сүрөттөрдү интерактивдүү түзүү үчүн колдонула турган веб-сүрөт редактору тиркемесин түзөбүз (англис жана орус тилдери колдоого алынат) жана боёктоо/боёктоо функциясын камсыз кылат.4 Видео демонстрация төмөнкү сайтта жеткиликтүү: YouTube.5


1-сүрөт: Кандинский моделинин алдын ала схемасы жана жыйынтык режимдери.



[1] Система атактуу сүрөтчү жана искусство теоретиги Василий Кандинскийдин атынан коюлган.


[2] https://github.com/ai-forever/Kandinsky-2


[3] https://huggingface.co/kandinsky-community


[4] https://fusionbrain.ai/en/editor


[5] https://www.youtube.com/watch?v=c7zHPc59cWU

L O A D I N G
. . . comments & more!

About Author

Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
Auto Encoder: How to Ignore the Signal Noise@autoencoder
Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

ТАГИП АЛУУ

БУЛ МАКАЛА БЕРИЛГЕН...