3,939 lexime

Modelet e Përshpejtimit të Difuzionit me TheStage AI: Një rast studimor i modeleve 20B dhe Red Panda të Recraft

nga TheStage AI7m2024/11/26

NSO

Shume gjate; Te lexosh

Ky artikull eksploron përshpejtimin e modeleve të përhapjes tekst-në-imazh të Recraft duke përdorur mjetet Python të TheStage AI. Ne shqyrtojmë sfidat e optimizimit të modeleve të pronarit dhe zhvillimit të tubacioneve efikase për optimizimin e konkluzioneve të PyTorch.

featured image - Modelet e Përshpejtimit të Difuzionit me TheStage AI:
Një rast studimor i modeleve 20B dhe Red Panda të Recraft

Recraft AI është një mjet projektimi i mundësuar nga modele të pronarit të difuzionit. Modeli i tyre i ri Red Panda, duke tejkaluar të gjitha modelet ekzistuese tekst-në-imazh, duke përfshirë Midjourney, DALL-E 3, FLUX. Recraft kombinon një përvojë unike të përdoruesit për dizajnerët me mjetet më të fundit të AI. Për të mbështetur miliona përdorues, modelet e difuzionit kërkojnë infrastrukturë të fuqishme konkluzionesh—bashkimi i pajisjeve të fuqishme me softuer efikas. Në këtë artikull, ne do të eksplorojmë se si mjetet e përshpejtimit të AI-së TheStage i ndihmuan inxhinierët dhe studiuesit e AI të Recraft për të arritur performancë deri në 2x në GPU-të Nvidia përmes një ndërfaqe intuitive Python!

Hyrje

Modelet e difuzionit kanë treguar rezultate të jashtëzakonshme vitet e fundit për gjenerimin e përmbajtjes, duke përfshirë imazhe, muzikë, video dhe rrjeta 3D. Këto modele përdorin llogaritjen e kostove të kohës së përfundimit për të përmirësuar në mënyrë të përsëritur rezultatet e gjenerimit, duke përditësuar paksa rezultatin në çdo hap konkluzion. Tani mund të shohim analogji në LLM e cila përdor arsyetimin përmes konkluzionit me shumë hapa për të dhënë përgjigje me cilësi të lartë.

Në TheStage AI ne po ndërtojmë kornizën e përgjithshme matematikore për modelet arbitrare të PyTorch për të trajtuar rrjedhën e ndërlikuar të përshpejtimit të modelit plotësisht automatikisht. Sistemi ynë zbulon automatikisht optimizimet ekzistuese në harduerin tuaj (qunatizimi, zvogëlimi) dhe zgjedh për secilën shtresë algoritmin e duhur për të arritur cilësinë më të mirë me madhësinë e modelit të dëshiruar dhe kufizimet e vonesës ose për të gjetur përshpejtimin më të mirë me kufizime të kufizuara të cilësisë. Është një problem i vështirë matematikor të cilin ne mund ta zgjidhim në një mënyrë shumë efikase! Ky artikull eksploron se si ne i zbatojmë këto mjete përmes partneritetit tonë me Recraft AI.

Gjatë projektimit të mjeteve tona, ne vendosëm të respektojmë parimet e mëposhtme:

Personalizimi i harduerit. Produktet me cilësi të lartë të AI tashmë kanë infrastrukturën e tyre të preferuar
Ruajtja e cilësisë. Produktet me cilësi të lartë të AI nuk mund të pranojnë degradimin e cilësisë
Privatësia. Produktet e AI me cilësi të lartë duan t'i mbajnë teknologjitë e tyre konfidenciale dhe të punojnë me mjete në infrastrukturën e tyre
DNN arbitrare. Produktet e inteligjencës artificiale me cilësi të lartë mund të përdorin arkitektura të zhvilluara brenda vendit ku mjetet e përshpejtimit publik për modelet me burim të hapur nuk mund të trajtojnë arkitekturat komplekse DNN për të prodhuar rezultate të sakta.
Pytorch. Korniza më e njohur dhe e përshtatshme për shumë inxhinierë të AI.

Duke pasur parasysh këto kushte fillestare, ne synuam të krijonim mjete me karakteristikat e mëposhtme:

Nxitimi i kontrollueshëm. Ne e përcaktojmë optimizimin e konkluzioneve si një problem të optimizimit të biznesit, duke i lejuar klientët të specifikojnë madhësinë e tyre të dëshiruar të modelit, vonesën ose cilësinë për të dhënat e tyre.
Kompilim i thjeshtë. Përpilimi i modeleve të prodhuara për ekzekutim efikas të harduerit kërkon vetëm një rresht të vetëm kodi. Ne gjithashtu ofrojmë një ndërfaqe të thjeshtë për të trajtuar ndërprerjet e grafikut.
Fillimi i shpejtë i ftohtë. Për të arritur fillimin sa më të shpejtë të ftohtë, ne mundësojmë ruajtjen e modeleve të përpiluara. Kjo është arsyeja pse ne nuk përdorim përpilues JIT.
Vendosje e thjeshtë. Vendosja e modelit të optimizuar duhet të jetë po aq e thjeshtë sa vendosja e modelit origjinal.

Modelet e difuzionit nga teksti në imazh

Në çdo përsëritje të procesit të difuzionit, një rrjet nervor denoises imazhin në hapësirën latente të një AutoEncoder Variational. Imazhi i marrë rishtazi përzihet përsëri me zhurmë, por me peshë gradualisht më pak. Gjatë përsëritjeve fillestare, modeli i difuzionit skicon skenën kryesore, duke shfrytëzuar peshën e konsiderueshme të zhurmës për të bërë përmirësime thelbësore. Në përsëritjet e mëvonshme, ai përmirëson detajet me frekuencë të lartë. Ky vëzhgim na lejon të projektojmë tubacione specifike përshpejtimi duke shpërndarë në mënyrë strategjike kapacitetin e rrjetit nëpër shtresa nga përsëritja në përsëritje, duke ruajtur cilësinë. Sidoqoftë, një ndarje e tillë kërkon mjete të specializuara që kombinojnë njohuritë matematikore me inxhinierinë e tingullit - këtu mund të ndihmojë ndjeshëm TheStage AI!

Modelet e Difuzionit Përshpejtimi dhe Kompresimi

Modelet e përshpejtimit të difuzionit mund të shihen si DNN arbitrare përshpejtuese, por ne duhet të marrim parasysh sfidat specifike. Për shembull, kuantizimi statik, i cili zakonisht siguron përshpejtim të konsiderueshëm, paraqet një sfidë në modelet e difuzionit pasi shpërndarjet e aktivizimit ndryshojnë nga përsëritja në përsëritje. Për të adresuar këtë, ne ose duhet të vlerësojmë siç duhet vlerat optimale për të gjitha përsëritjet ose të përdorim konfigurime të ndryshme kuantizimi për çdo përsëritje.

Modelet e difuzionit janë sfiduese për t'u trajnuar dhe për të arritur performancë të lartë. Megjithatë, rezultatet e demonstruara nga ekipi i Recraft kanë tejkaluar të gjitha modelet moderne tekst-në-imazh . Vërtetimi i degradimit të modeleve të tilla mund të jetë i vështirë, duke e bërë vendimtare përdorimin e teknikave të përshpejtimit që ruajnë semantikën origjinale të veçorive. Algoritmet e kuantizimit mund të jenë një zgjedhje e mirë nëse mund të përballojnë sfidën e shpërndarjeve të ndryshme të aktivizimit. Le të hedhim një vështrim në tubacionet tona automatike, të cilat do t'i përshkruajmë në seksionet e mëposhtme.

Profilizimi

Profili i një modeli të caktuar me të dhëna specifike lejon:

Përcaktoni madhësinë e secilit parametër
Identifikoni algoritmet e aplikueshme të kuantizimit, sparifikimit, krasitjes për çdo bllok bazë
Vlerësoni vonesën për blloqe individuale me paraqitje të ndryshme memorie
Përpiloni të gjitha informacionet e mbledhura për ANNA (Automated NNs Accelerator)

Kompresim dhe përshpejtim automatik

Pasi profiluesi të ketë mbledhur të gjitha të dhënat e nevojshme, ne mund të nisim tabelën tonë ANNA dhe të lëvizim rrëshqitësin për të prodhuar versione të ndryshme të modeleve të optimizuara. Përdoruesit tanë më pas mund të zgjedhin kandidatët më të mirë bazuar në kompromisin e cilësisë me koston e konkluzionit. Mjetet tona i trajtojnë këto vendime subjektive cilësore në një mënyrë të thjeshtë.

Operacionet Fusion and Compilation

Siç u përmend më herët, ne nuk përdorim përpilimin JIT sepse rrit kohën e fillimit të ftohtë të një nyje të re. Ne gjithashtu nuk përdorim përpilues jashtë raftit. Në vend të kësaj, ne përpilojmë konfigurimin tonë kompleks të përshpejtuar që mund të përziejë algoritme të ndryshme. Për ta arritur këtë, ne kemi zhvilluar protokollin tonë të brendshëm për të përcaktuar shtresat e përshpejtuara nga DNN në një mënyrë harduerike-agnostike. Një nga përfitimet kryesore të kornizës së përshpejtimit të AI-së TheStage është se një pikë kontrolli e vetme mund të përpilohet për një gamë të gjerë harduerësh, duke zgjidhur përputhshmërinë ndër-platformë për softuerin e AI. Kjo veçori do të jetë veçanërisht e rëndësishme për vendosjen e pajisjes skajore në zhvillimin e aplikacioneve.

Qëllimet e përpiluesve të DNN janë:

Thjeshtimi i grafikut. Thjeshtoni grafikun e ekzekutimit përmes bashkimit të operacioneve matematikore, duke reduktuar kohën e përfundimit
Menaxhimi i Kujtesës. Llogaritni kujtesën e kërkuar për çdo operacion dhe menaxhoni planifikimin e alokimit me ripërdorim efikas të memories
Zbatimi optimal. Përcaktoni zbatimin optimal për çdo operacion bazë - një detyrë sfiduese, pasi zbatimi më i mirë mund të kërkojë paraqitje specifike të memories, duke çuar në analizën e lidhjeve ndërshtresore
Planifikimi i Operacioneve. Krijoni një plan operacionesh për grafikun e optimizuar të ekzekutimit
Serializimi. Ruani të gjithë këtë informacion për të shmangur ripërpilimin e modelit në ekzekutimet e mëvonshme

Vendosja dhe shërbimi

Serverët e konkluzionit dhe tubacionet e shkallëzimit automatik luajnë një rol të rëndësishëm në përpunimin me kosto efektive dhe efikase të kërkesave hyrëse. Mund të përfshijë gjithashtu grupimin e kërkesave specifike dhe mbledhjen e statistikave për të vendosur shkallëzimin parashikues për shkallëzuesit automatikë. Në artikujt tanë të ardhshëm, ne do të diskutojmë më në detaje serverët efikas të përfundimit!

Rezultatet

Duke aplikuar të gjithë tubacionin, ne mund të arrijmë performancë më të mirë se përpiluesi Pytorch ( torch.compile ) dhe sigurisht dukshëm më i mirë se ekzekutimi i etur float16 PyTorch. Për më tepër, pasi përpiluesi PyTorch përdor qasjen e përpilimit JIT në çdo inicializimin e modelit, ai kërkon ripërpilim për shumë madhësi hyrëse, gjë që e bën fillimin e ftohtë mjaftueshëm për aplikime praktike ku vonesa është shumë e rëndësishme.

Përfitimet e biznesit

Këtu janë përfitimet kryesore të biznesit të përshpejtimit të rezultuar për produktin e Recraft:

Ulja e kostove të infrastrukturës duke shërbyer dy herë më shumë përdorues me të njëjtin harduer
Përvoja e përmirësuar e përdoruesit me kohë më të shpejta të reagimit të gjenerimit të imazhit
Aftësia për të shërbyer më shumë përdorues të njëkohshëm gjatë ngarkesave maksimale
Avantazhi konkurrues përmes ofrimit më të shpejtë të shërbimit

Mjetet e optimizimit të inteligjencës artificiale "TheStage" na lejojnë të përshpejtojmë modelet tona tekst-në-imazh pa degradim të cilësisë, duke krijuar një përvojë më të mirë përdoruesi për klientët tanë.

CEO Recraft, Anna Veronika Dorogush

Mirënjohje

Këto rezultate ofrojnë vërtetim të shkëlqyeshëm të mjeteve tona dhe kërkimit mbi produktet me ngarkesë pune në shkallë të lartë. Ekipi i TheStage AI vazhdon të punojë drejt ofrimit të performancës edhe më të madhe. Për ta arritur këtë, ne po bashkëpunojmë me partnerë të shquar! Ne jemi thellësisht mirënjohës për:

CEO e Recraft, Anna Veronika për bashkëpunimin e frytshëm. Ne jemi të emocionuar që jemi qoftë edhe një pjesë e vogël e rrugëtimit të tyre madhështor në ofrimin e mjeteve më të mira të dizajnit.
Shefi i Recraft i AI Pavel Ostyakov për ekspertizën e tij në DNN, reagime të forta mbi mjetet dhe për vendosjen e qëllimeve sfiduese për projektin tonë të bashkëpunimit.
Ekipi i Recraft AI për ndërtimin e këtij produkti të mrekullueshëm. Imazhet në këtë artikull u krijuan me Recraft!
Ekipi Nebius për mbështetjen e tyre të vazhdueshme me infrastrukturë të shkëlqyer GPU për kërkimin tonë.

Kontaktet / Burimet

Mos ngurroni të lidheni me ne për çdo pyetje! Ne mund t'ju ndihmojmë të reduktoni kostot e infrastrukturës së konkluzionit!

Email-i ynë: [email protected]

Faqja kryesore e TheStage AI: thestage.ai

Platforma e optimizimit të konkluzioneve të TheStage AI: app.thestage.ai

L O A D I N G
. . . comments & more!

About Author

TheStage AI@thestage

A full-stack AI platform 👽 Trusted voice in AI, we grindin', no sleep ✨

Read my stories

VARUR TAGS

tech-stories #diffusion-models #machine-learning #quantization #model-acceleration #redpanda #pytorch #compiler-optimizations

KY ARTIKU U PARAQIT NË...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas