क्या उच्च-स्तरीय उपभोक्ता-ग्रेड जीपीयू बड़े पैमाने पर स्थिर प्रसार अनुमान के लिए अच्छे हैं? यदि हां, तो लाखों छवियां बनाने की दैनिक लागत क्या होगी? क्या आपको सचमुच A10s, A100s, या H100s की आवश्यकता है?
इस बेंचमार्क में, हम सलादक्लाउड पर एक सुव्यवस्थित, स्थिर प्रसार-आधारित एप्लिकेशन लॉन्च करके इन सवालों का जवाब देते हैं।
परिणाम: हमने 750 प्रतिकृतियां (जीपीयू) तक बढ़ाया, और $1,872 की कुल लागत पर 24 घंटों में 3.62 टीबी स्टोरेज का उपयोग करके 9.2 मिलियन से अधिक छवियां तैयार कीं।
प्रति डॉलर 4,954 छवियां उत्पन्न करके, यह बेंचमार्क दिखाता है कि उपभोक्ता-ग्रेड जीपीयू पर बड़े पैमाने पर जेनरेटिव एआई अनुमान व्यावहारिक, किफायती और कम क्लाउड लागत का मार्ग है। इस पोस्ट में, हम एप्लिकेशन आर्किटेक्चर और मॉडल विवरण, त्वरित विवरण के साथ सलादक्लाउड पर तैनाती और बेंचमार्क से अनुमान परिणामों की समीक्षा करेंगे। अगली पोस्ट में, हम एक तकनीकी वॉकथ्रू और संदर्भ कोड प्रदान करेंगे जिसका उपयोग आप इस बेंचमार्क को दोहराने के लिए कर सकते हैं।
यह बेंचमार्क कस्टम आर्टवर्क के लिए SaaS-स्टाइल, जेनरेटिव AI इमेज जेनरेशन टूल के लिए चलाया गया था। अंतिम-उपयोगकर्ता सुव्यवस्थित मॉडलों की श्रेणियों के माध्यम से ब्राउज़ करते हैं, एक मॉडल का चयन करते हैं, प्रॉम्प्ट और मापदंडों को अनुकूलित करते हैं, और एक या अधिक छवियां उत्पन्न करने के लिए एक कार्य सबमिट करते हैं। एक बार उत्पन्न होने के बाद, छवियां अंतिम-उपयोगकर्ता के सामने प्रस्तुत की जाती हैं। हमने इस उपयोग के मामले के लिए सलादक्लाउड नोड्स की क्षमता प्रदर्शित करने के लिए अनुमान कंटेनर विकसित करने में मदद की। निम्नलिखित चित्र सिस्टम आर्किटेक्चर का उच्च-स्तरीय चित्रण प्रदान करता है:
प्रमुख घटकों में एक वेब-आधारित एप्लिकेशन (फ्रंटएंड और बैकएंड), एक समर्पित जॉब कतार, एक अनुमान कंटेनर और एक ब्लॉक स्टोरेज सेवा शामिल है। Azure Queue स्टोरेज का उपयोग कार्य कतार के लिए किया गया था और FIFO शेड्यूलिंग प्रदान की गई थी। Azure ब्लॉब स्टोरेज का उपयोग ब्लॉक स्टोरेज प्रदान करने के लिए किया गया था। निम्नलिखित चित्र अनुमान कंटेनर आर्किटेक्चर का उच्च-स्तरीय चित्रण प्रदान करता है:
कंटेनर ऑटोमैटिक1111 के स्टेबल डिफ्यूजन वेब यूआई पर आधारित था। हमने गो में लिखे कंटेनर में एक कस्टम वर्कर बनाया और जोड़ा जिसने जॉब प्रोसेसिंग पाइपलाइन को कार्यान्वित किया। कार्यकर्ता ने Azure Queue स्टोरेज और Azure ब्लॉब स्टोरेज सेवाओं के साथ संचार करने के लिए Go के लिए Azure SDK का लाभ उठाया। कार्यकर्ता क्रमिक रूप से नौकरी के लिए कतार का चुनाव करता है, छवियों को उत्पन्न करने के लिए स्टेबल डिफ्यूजन वेब यूआई सर्वर द्वारा प्रदान किए गए text2img एपीआई एंडपॉइंट का उपयोग करता है, और छवियों को ब्लॉब कंटेनर में अपलोड करता है।
अनुमान कंटेनर छवि बनाने के बाद, हमने वेब-आधारित पोर्टल का उपयोग करके एक सलादक्लाउड प्रबंधित कंटेनर परिनियोजन बनाया।
तैनाती ने कम से कम 4 वीसीपीयू, कम से कम 8 जीबी रैम और कम से कम 8 जीबी वीआरएएम के साथ एक एनवीआईडीआईए आरटीएक्स 2000, 3000, या 4000 श्रृंखला जीपीयू के साथ 750 अद्वितीय नोड्स को लक्षित किया। हालाँकि सलादक्लाउड अधिक लक्षित नोड चयन की अनुमति देता है, हमने शेड्यूलर को अप्रयुक्त नेटवर्क क्षमता के आधार पर संगत जीपीयू के साथ पहले उपलब्ध नोड्स लेने की अनुमति देने का निर्णय लिया है। यह भी उल्लेखनीय है कि हमने तैनाती के भौगोलिक वितरण को प्रतिबंधित नहीं किया है।
कार्य कतार 10,000,000 परिवर्तनीय छवि निर्माण संकेतों से भरी हुई थी। निम्नलिखित नौकरियों में से एक का उदाहरण है:
{"prompt": "photo of a jump rope, lora:magic-fantasy-forest-v2:0.35, magic-fantasy-forest, digital art, most amazing artwork in the world, ((no humans)), volumetric light, soft balanced colours, forest scenery, vines, uhd, 8k octane render, magical, amazing, ethereal, intricate, intricate design, ultra sharp, shadows, cooler colors, trending on cgsociety, ((best quality)), ((masterpiece)), (detailed)","negative_prompt": "oversaturation, oversaturated colours, (deformed, distorted, disfigured:1.3), distorted iris, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, human, man, woman", "sampler_name": "k_euler_a", "steps": 15, "cfg_scale": 7}
प्रत्येक कार्य में टेक्स्ट प्रॉम्प्ट में एम्बेडेड एक LoRA परिभाषा शामिल होती है, और प्रत्येक कार्य में थोड़े भिन्न ठोस संज्ञाओं और पर्यावरण विवरणों का उपयोग किया जाता है। उत्पादित छवियों को 512x512 पिक्सेल के आकार पर तय किया गया था, नमूना को यूलर पैतृक पर तय किया गया था, चरणों की संख्या 15 पर तय की गई थी, और सीएफजी स्केल 7 पर तय किया गया था।
24 घंटे की अवधि में, हमने 3.62 टीबी सामग्री का उत्पादन करते हुए कुल 9,274,913 छवि निर्माण अनुरोधों को संसाधित किया। न्यूनतम प्रसंस्करण विफलताएँ थीं (उदाहरण के लिए क्षणिक नेटवर्क समस्याएँ), और केवल 523 नौकरियों को दूसरी बार पुन: संसाधित किया गया था। औसतन, हमने 7 सेकंड का छवि निर्माण चक्र समय हासिल किया। निम्नलिखित मोज़ेक उत्पन्न छवियों में से कुछ का एक उदाहरण है:
स्थिर प्रसार अनुमान बेंचमार्क से उत्पन्न छवियों का एक नमूना। संकेत में एक काल्पनिक शैली के जंगल में स्थापित विभिन्न संज्ञाएं शामिल थीं।
ट्यूनिंग और मापदंडों को अनुकूलित करने में समय की कमी को देखते हुए उत्पन्न छवियों को ब्राउज़ करना और सापेक्ष गुणवत्ता का अवलोकन करना मजेदार था।
इस प्रदर्शन से रोमांचक परिणाम सामने आए, जिससे पता चला कि बड़े पैमाने पर स्थिर प्रसार अनुमान के लिए, उपभोक्ता-ग्रेड जीपीयू न केवल सक्षम हैं, बल्कि अधिक लागत प्रभावी भी हैं। जैसा कि कहा गया, यह अनुकूलित से बहुत दूर था। प्रदर्शन को बेहतर बनाने के लिए हम कई तकनीकी कार्य कर सकते हैं। विशेष रूप से, हमने तुरंत वर्कर को कार्यान्वित किया और एक लूप पर समझौता किया जो क्रमिक रूप से एक नौकरी खींचता है, एक छवि बनाता है, और छवि अपलोड करता है। इस कार्यान्वयन के साथ, जब हम नेटवर्क I/O की प्रतीक्षा करते हैं, तो GPU निष्क्रिय रहता है।
यदि हमने यह दृष्टिकोण अपनाया कि पाइपलाइन वाली नौकरियां, उत्सुकता से कतार से एक अतिरिक्त नौकरी खींचती हैं और नेटवर्क I/O को एक अन्य छवि निर्माण अनुरोध के साथ समानांतर करती हैं, तो हम समग्र नौकरी थ्रूपुट पर कम से कम 10% सुधार का अनुमान लगाते हैं। कुल लागत को समायोजित किए बिना, यह हमें एक दिन में उत्पन्न 10 मिलियन से अधिक छवियों तक ले जाएगा।
जेनरेटिव एआई एक प्रकार की कृत्रिम बुद्धिमत्ता है जो पेंटिंग, संगीत और लेखन जैसी नई सामग्री बना सकती है। यह पैटर्न और रिश्तों का एक मॉडल विकसित करने के लिए मौजूदा जानकारी से सीखकर काम करता है, और इसमें अद्वितीय और वैयक्तिकृत सामग्री तैयार करने में व्यावहारिक अनुप्रयोग हैं। कई ओपन-सोर्स फाउंडेशन मॉडल जारी होने के कारण यह एक तेजी से लोकप्रिय तकनीक बन गई है, जिनमें से कई बहुत बड़े पैमाने पर डेटासेट पर विकसित किए गए हैं। फाइन-ट्यूनिंग को विकसित करने और लागू करने में सापेक्ष आसानी और बड़े पैमाने पर अनुमान चलाने की कम लागत के साथ, जेनरेटिव एआई का लोकतंत्रीकरण एक अविश्वसनीय गति से नए अनुप्रयोगों को अनलॉक कर रहा है।
विशेष रूप से अनुमान से संबंधित, कई मॉडलों को सामग्री को कुशलतापूर्वक उत्पन्न करने के लिए अभी भी महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। हालाँकि, उपभोक्ता-ग्रेड जीपीयू की प्रसंस्करण शक्ति और संसाधन क्षमता में उछाल ने जेनेरिक एआई मॉडल के कई अनुप्रयोगों को प्रभावित किया है।
बड़े क्लाउड कंप्यूटिंग प्रदाताओं की ओर रुख करने और A10s, A100s, या H100s जैसे एंटरप्राइज़-ग्रेड GPU तक दुर्लभ पहुंच के लिए प्रतिस्पर्धा करने के बजाय, ग्राहकों की बढ़ती संख्या सलादक्लाउड की ओर रुख कर रही है, जो दुनिया के सबसे शक्तिशाली गेमिंग पीसी से बना एक वितरित क्लाउड कंप्यूटिंग वातावरण है। .
जेनेरिक एआई के तेजी से बढ़ते अनुप्रयोग में पाठ्य विवरण से छवियां बनाना शामिल है। "टेक्स्ट टू इमेज" वर्कफ़्लो का उपयोग गेम, विज्ञापन और मार्केटिंग अभियान, स्टोरीबोर्ड और बहुत कुछ के लिए संपत्ति उत्पन्न करने के लिए किया जा सकता है। स्टेबल डिफ्यूजन "टेक्स्ट टू इमेज" स्पेस में एक लोकप्रिय, ओपन-सोर्स फाउंडेशन मॉडल है।
हम वर्तमान में "छवि से छवि" और "ऑडियो से पाठ" वर्कफ़्लो प्रदर्शन और बेंचमार्क की योजना बना रहे हैं, और हम निकट भविष्य में अपने ब्लॉग के माध्यम से और अधिक परिणाम साझा करने की उम्मीद करते हैं।
यह बेंचमार्क सलादक्लाउड पर चलाया गया था, जो जेनरेटिव एआई अनुमान और अन्य कम्प्यूटेशनल रूप से गहन अनुप्रयोगों के लिए दुनिया का सबसे किफायती जीपीयू क्लाउड है। $0.10/घंटा से शुरू होने वाले 10k+ से अधिक GPU के साथ, सलादक्लाउड की GPU कीमतें बाज़ार में सबसे कम हैं।
यदि उच्च क्लाउड बिल और जीपीयू उपलब्धता आपके विकास और लाभप्रदता में बाधा डाल रही है, तो सलादक्लाउड कम कीमतों और ऑन-डिमांड उपलब्धता में मदद कर सकता है।
हाल ही में, हमारे उत्पाद प्रमुख, डैनियल सरफती , एलएलएम यूटिल्स (अत्यधिक अनुशंसित एलएलएम संसाधन) के क्ले पास्कल के साथ बैठे, ताकि स्थिर प्रसार के लिए सही जीपीयू का चयन करने के तरीके पर चर्चा की जा सके। स्टेबल डिफ्यूजन के लिए जीपीयू विकल्प के बारे में अधिक जानने के लिए, आप पूरा ऑडियो साक्षात्कार सुन सकते हैं।
वैयक्तिकृत डेमो के लिए हमसे संपर्क करें। अपने स्वयं के मॉडल या लोकप्रिय मॉडल (स्टेबल डिफ्यूजन, व्हिस्पर, बीईआरटी, आदि) के पूर्व-कॉन्फ़िगर किए गए व्यंजनों को चलाने के लिए, निःशुल्क परीक्षण के लिए सलादक्लाउड पोर्टल देखें।
यहाँ भी प्रकाशित किया गया है.