Recraft AI is een ontwerptool die wordt aangestuurd door gepatenteerde diffusiemodellen. Hun nieuwe model Red Panda presteert beter dan alle bestaande tekst-naar-afbeeldingmodellen, waaronder Midjourney, DALL-E 3, FLUX. Recraft combineert een unieke gebruikerservaring voor ontwerpers met geavanceerde AI-tools. Om miljoenen gebruikers te ondersteunen, vereisen diffusiemodellen een robuuste inferentie-infrastructuur: krachtige hardware wordt samengevoegd met efficiënte software. In dit artikel onderzoeken we hoe TheStage AI-acceleratietools de AI-engineers en onderzoekers van Recraft hielpen om tot 2x betere prestaties te behalen op Nvidia GPU's via een intuïtieve Python-interface!
Diffusiemodellen hebben de afgelopen jaren buitengewone resultaten laten zien voor contentgeneratie, waaronder afbeeldingen, muziek, video's en 3D-meshes. Deze modellen gebruiken inferentietijd-berekeningskosten om generatieresultaten iteratief te verbeteren, waarbij de uitvoer bij elke inferentiestap licht wordt bijgewerkt. We kunnen nu analogie zien in LLM's die redenering door middel van multistep inferentie gebruiken om een antwoord van hoge kwaliteit te bieden.
In TheStage AI bouwen we een algemeen wiskundig raamwerk voor willekeurige PyTorch-modellen om complexe modelversnellingsstromen volledig automatisch te verwerken. Ons systeem detecteert automatisch bestaande optimalisaties op uw hardware (kwantificering, sparsificatie) en selecteert voor elke laag het juiste algoritme om de beste kwaliteit te bereiken met een gewenste modelgrootte en latentiebeperkingen of om de beste versnelling te vinden met beperkte kwaliteitsbeperkingen. Het is een moeilijk wiskundig probleem dat we op een zeer efficiënte manier kunnen oplossen! Dit artikel onderzoekt hoe we deze tools toepassen via onze samenwerking met Recraft AI.
Bij het ontwerpen van onze tools hebben we ervoor gekozen om de volgende principes in acht te nemen:
Gegeven deze beginvoorwaarden wilden we hulpmiddelen creëren met de volgende kenmerken:
In elke iteratie van het diffusieproces verwijdert een neuraal netwerk ruis uit het beeld in de latente ruimte van een Variational AutoEncoder. Het nieuw verkregen beeld wordt vervolgens opnieuw gemengd met ruis, maar met steeds minder gewicht. Tijdens de eerste iteraties schetst het diffusiemodel de hoofdscène, waarbij het aanzienlijke ruisgewicht wordt benut om substantiële upgrades uit te voeren. In latere iteraties verfijnt het hoogfrequente details. Deze observatie stelt ons in staat om specifieke versnellingspijplijnen te ontwerpen door netwerkcapaciteit strategisch toe te wijzen over lagen van iteratie tot iteratie, waarbij de kwaliteit behouden blijft. Een dergelijke toewijzing vereist echter gespecialiseerde tools die wiskundige inzichten combineren met gedegen engineering — dit is waar TheStage AI aanzienlijk kan helpen!
Versnellende diffusiemodellen kunnen worden gezien als het versnellen van willekeurige DNN's, maar we moeten rekening houden met specifieke uitdagingen. Statische kwantisering, die doorgaans aanzienlijke versnelling biedt, introduceert bijvoorbeeld een uitdaging in diffusiemodellen, aangezien activeringsdistributies van iteratie tot iteratie veranderen. Om dit aan te pakken, moeten we ofwel de optimale waarden voor alle iteraties correct schatten, ofwel verschillende kwantiseringsinstellingen gebruiken voor elke iteratie.
Diffusiemodellen zijn lastig te trainen en leveren hoge prestaties. Toch overtreffen de resultaten van het Recraft-team alle moderne tekst-naar-afbeeldingmodellen . Het valideren van de degradatie van dergelijke modellen kan lastig zijn, waardoor het cruciaal is om versnellingstechnieken te gebruiken die de originele feature-semantiek behouden. Kwantiseringsalgoritmen kunnen een goede keuze zijn als ze de uitdaging van variërende activeringsdistributies aankunnen. Laten we eens kijken naar onze automatische pipelines, die we in de volgende secties zullen beschrijven.
Door een bepaald model te profileren met specifieke gegevens kunt u:
Nadat de profiler alle benodigde gegevens heeft verzameld, kunnen we ons ANNA-bord starten en de schuifregelaar verplaatsen om verschillende geoptimaliseerde modelversies te produceren. Onze gebruikers kunnen vervolgens de beste kandidaten selecteren op basis van de afweging tussen kwaliteit en inferentiekosten. Onze tools verwerken deze subjectieve kwaliteitsbeslissingen op een eenvoudige manier.
Zoals eerder vermeld, gebruiken we geen JIT-compilatie omdat het de koude starttijd van een nieuw knooppunt vergroot. We gebruiken ook geen kant-en-klare compilers. In plaats daarvan compileren we onze eigen complexe versnelde configuratie die verschillende algoritmen kan mixen. Om dit te bereiken, hebben we ons eigen interne protocol ontwikkeld om DNN-versnelde lagen op een hardware-agnostische manier te definiëren. Een van de belangrijkste voordelen van het TheStage AI-acceleratieframework is dat een enkel controlepunt kan worden gecompileerd voor een breed scala aan hardware, waardoor cross-platform compatibiliteit voor AI-software wordt opgelost. Deze functie zal met name belangrijk zijn voor de implementatie van edge-apparaten in applicatieontwikkeling.
De doelen van DNN-compilers zijn:
Inference servers en auto-scaling pipelines spelen een belangrijke rol in kosteneffectieve en efficiënte verwerking van inkomende verzoeken. Het kan ook specifieke verzoekgroepering en statistiekenverzameling omvatten om voorspellende schaling voor auto-scalers in te stellen. In onze toekomstige artikelen zullen we efficiënte inference servers uitgebreider bespreken!
Door alle pipelines toe te passen kunnen we prestaties bereiken die beter zijn dan die van de Pytorch-compiler ( torch.compile
) en natuurlijk aanzienlijk beter dan float16 eager PyTorch-uitvoering. Bovendien vereist de PyTorch-compiler, omdat deze de JIT-compilatiebenadering gebruikt bij elke modelinitialisatie, hercompilatie voor veel invoergroottes, wat de koude start lang genoeg maakt voor praktische toepassingen waarbij latentie van groot belang is.
Dit zijn de belangrijkste zakelijke voordelen van de resulterende versnelling voor het product van Recraft:
Met de AI-optimalisatietools van TheStage kunnen we onze tekst-naar-afbeeldingmodellen versnellen zonder dat dit ten koste gaat van de kwaliteit. Zo creëren we een betere gebruikerservaring voor onze klanten.
CEO Recraft, Anna Veronika Dorogush
Deze resultaten bieden een uitstekende validatie van onze tools en onderzoek naar grootschalige workloadproducten. Het TheStage AI-team blijft werken aan het leveren van nog betere prestaties. Om dit te bereiken, werken we samen met uitstekende partners! We zijn zeer dankbaar aan:
Neem gerust contact met ons op voor vragen! Wij kunnen u helpen om de kosten van inferentie-infrastructuur te verlagen!
Ons e-mailadres: [email protected]
TheStage AI hoofdpagina: thestage.ai
TheStage AI-inferentieoptimalisatieplatform: app.thestage.ai