टेक्स्ट-टू-इमेज मॉडल जैसे डेल या स्थिर डिफ्यूजन वास्तव में अच्छे हैं और हमें एक साधारण टेक्स्ट इनपुट के साथ शानदार चित्र बनाने की अनुमति देते हैं। लेकिन क्या उन्हें आपकी एक तस्वीर देना और उसे पेंटिंग में बदलने के लिए कहना और भी अच्छा होगा? किसी वस्तु, व्यक्ति, या यहां तक कि अपनी बिल्ली की कोई भी तस्वीर भेजने में सक्षम होने की कल्पना करें, और मॉडल को इसे किसी अन्य शैली में बदलने के लिए कहें, जैसे कि अपने आप को अपनी पसंदीदा कलात्मक शैली में साइबोर्ग में बदलना या इसे एक नए दृश्य में जोड़ना। मूल रूप से, डैल का एक संस्करण होना कितना अच्छा होगा जिसका उपयोग हम यादृच्छिक पीढ़ियों के बजाय अपने चित्रों को फोटोशॉप करने के लिए कर सकते हैं? एक व्यक्तिगत DALLE होने के साथ-साथ पीढ़ी को नियंत्रित करने के लिए इसे और अधिक सरल बनाते हुए "एक छवि एक हजार शब्दों के लायक है"। यह एक डैल मॉडल की तरह होगा जो टिकटॉक एल्गोरिथम की तरह ही वैयक्तिकृत और व्यसनी है। खैर, तेल अवीव विश्वविद्यालय और एनवीआईडीआईए के शोधकर्ताओं ने इसी पर काम किया। उन्होंने टेक्स्ट-टू-इमेज मॉडल की कंडीशनिंग के लिए एक दृष्टिकोण विकसित किया, जैसे कि स्थिर प्रसार मैंने पिछले सप्ताह कवर किया, कुछ छवियों के साथ किसी भी वस्तु या अवधारणा का प्रतिनिधित्व करने के लिए शब्दों के माध्यम से आप अपनी छवियों के साथ भेजेंगे। अपनी इनपुट छवियों की वस्तु को जो कुछ भी आप चाहते हैं उसे बदलना! वीडियो में और जानें... संदर्भ ►पूरा लेख पढ़ें: पेपर: गैल, आर।, अलालुफ, वाई।, एट्ज़मोन, वाई।, पटाशनिक, ओ।, बरमानो, एएच, चेचिक, जी। और कोहेन-ओर, डी।, 2022। एक छवि एक शब्द के लायक है: टेक्स्ट-टू-इमेज जेनरेशन को टेक्स्टुअल इनवर्जन का उपयोग करके निजीकृत करना। कोड: ►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/imageworthoneword/ https://arxiv.org/pdf/2208.01618v1.pdf https://textual-inversion.github.io/ https://www.louisbouchard.ai/newsletter/ वीडियो प्रतिलेख 0:00 टेक्स्ट-टू-इमेज मॉडल जैसे डाली या स्थिर 0:02 प्रसार वास्तव में अच्छा है और हमें अनुमति दें 0:04 a . के साथ शानदार चित्र बनाने के लिए 0:07 सरल पाठ इनपुट लेकिन क्या यह सम होगा 0:09 कूलर उन्हें आपकी एक तस्वीर देने के लिए और 0:11 इसे पेंटिंग में बदलने के लिए कहें 0:13 किसी भी तस्वीर को भेजने में सक्षम होने की कल्पना करें 0:15 किसी वस्तु व्यक्ति या यहां तक कि आपकी बिल्ली और 0:18 मॉडल से इसे बदलने के लिए कहें 0:20 एक और शैली जैसे खुद को बदलना 0:22 अपने पसंदीदा कलात्मक में एक सायबोर्ग 0:24 शैली या इसे एक नए दृश्य में जोड़ना 0:27 मूल रूप से यह कितना अच्छा होगा कि a 0:30 डाली का संस्करण हम फोटोशॉप के लिए उपयोग कर सकते हैं 0:32 हमारे चित्र यादृच्छिक होने के बजाय 0:35 पीढ़ियों 0:36 बनाते समय एक व्यक्तिगत डॉली रखना 0:39 इसे नियंत्रित करना बहुत आसान है 0:41 एक छवि के रूप में पीढ़ियों के लायक है 0:44 हजार शब्द यह एक होने जैसा होगा 0:46 डाली मॉडल जो बिल्कुल वैयक्तिकृत है 0:49 और टिक टीएसी एल्गोरिथ्म के रूप में नशे की लत 0:52 यह वही है जो दूरभाष के शोधकर्ताओं ने किया है 0:54 अवीव विश्वविद्यालय और एनवीडिया ने काम किया 0:57 उन्होंने इसके लिए एक दृष्टिकोण विकसित किया 0:58 कंडीशनिंग टेक्स्ट-टू-इमेज मॉडल जैसे 1:01 स्थिर प्रसार मैंने पिछले सप्ताह कवर किया था 1:03 कुछ छवियों के साथ किसी का प्रतिनिधित्व करने के लिए 1:05 आप शब्दों के माध्यम से वस्तु या अवधारणा 1:08 आपकी छवियों को बदलने के साथ भेज देगा 1:11 आपकी इनपुट छवियों का उद्देश्य 1:13 जो कुछ भी आप चाहते हैं निश्चित रूप से परिणाम 1:15 अभी भी काम की जरूरत है लेकिन यह सिर्फ 1:17 इस तरह के एक अद्भुत से निपटने वाला पहला पेपर 1:19 कार्य जो डिजाइन में क्रांति ला सकता है 1:22 एक शानदार यूट्यूबर के रूप में उद्योग 1:24 सहकर्मी कहेंगे बस दो और कल्पना कीजिए 1:26 कागज नीचे लाइन तो हम कैसे ले सकते हैं 1:29 किसी वस्तु की मुट्ठी भर तस्वीरें और 1:31 एक पाठ के बाद एक नई छवि उत्पन्न करें 1:33 शैली जोड़ने के लिए शर्त इनपुट or 1:35 इसका उत्तर देने के लिए परिवर्तन विवरण 1:38 जटिल प्रश्न आइए एक नजर डालते हैं 1:40 रेनॉल्ड गैल और उनकी टीम क्या सामने आई 1:42 इनपुट छवियों के साथ एन्कोड किया गया है 1:44 वे बेतुका शब्द क्या कहते हैं जिसे आप कर सकते हैं 1:47 फिर अपनी टेक्स्ट पीढ़ी के भीतर उपयोग करें 1:50 इस प्रकार कागज का नाम एक छवि के लायक है 1:52 एक शब्द लेकिन वे इस प्रकार कैसे प्राप्त करते हैं 1:55 शब्द का और यह क्या है 1:57 वे तीन से पांच छवियों के साथ शुरू करते हैं 2:00 एक विशिष्ट वस्तु जिसका वे भी उपयोग करते हैं a 2:02 इसमें छवि मॉडल के लिए पूर्व-प्रशिक्षित पाठ 2:04 मामले में वे अव्यक्त प्रसार मॉडल का उपयोग करते हैं 2:07 मैंने एक सप्ताह पहले भी कवर नहीं किया था जो 2:09 छवियों या जैसे किसी भी प्रकार के इनपुट लेता है 2:12 पाठ और नई छवियों को उत्पन्न करता है 2:15 उन्हें आप कूलर और खुले के रूप में देख सकते हैं 2:18 स्रोत डेली अगर आपने my . नहीं देखा है 2:20 वीडियो फिर भी आपको इसे रोक देना चाहिए 2:23 इस मॉडल के बारे में जानें और वापस आएं 2:25 यहाँ आप वीडियो को पसंद करेंगे और सीखेंगे 2:27 के सबसे गर्म वास्तुकला के बारे में 2:29 पल तो आपके पास आपकी इनपुट छवियां हैं और 2:32 छवियों को उत्पन्न करने के लिए आधार मॉडल 2:34 वातानुकूलित और इनपुट जैसे टेक्स्ट या 2:37 अन्य छवियां लेकिन आप इसके साथ क्या करते हैं 2:39 किसी वस्तु के आपके तीन से पांच चित्र 2:42 और आप मॉडल को कैसे नियंत्रित करते हैं 2:43 परिणाम इतने सटीक रूप से कि आपकी वस्तु 2:46 पीढ़ियों में प्रकट होता है यह सब 2:48 आपके प्रशिक्षण की प्रक्रिया के दौरान किया गया 2:51 दूसरा मॉडल टेक्स्ट एन्कोडर का उपयोग करके आपका 2:54 पूर्व-प्रशिक्षित और निश्चित छवि जनरेटर 2:56 इस मामले में मॉडल अव्यक्त प्रसार 2:59 पहले से ही एक तस्वीर लेने में सक्षम और 3:00 इसे फिर से बनाएं जिसे आप सिखाना चाहते हैं 3:02 बेतुका मिलान करने के लिए टेक्स्ट एन्कोडर मोडल 3:05 आपकी एन्कोडेड छवियों या अन्य शब्दों में शब्द 3:08 शब्द आपके अभ्यावेदन . से लिए गए हैं 3:11 आपकी पांच छवियां ताकि आप अपने को खिलाएं 3:13 आपके छवि जनरेटर नेटवर्क के लिए छवियां 3:16 और अपने टेक्स्ट एन्कोडर को रिवर्स में प्रशिक्षित करें 3:19 पता लगाने के लिए क्या नकली शब्द या निश्चित 3:22 शब्द आपके सभी का सबसे अच्छा प्रतिनिधित्व करेगा 3:24 एन्कोडेड छवियां मूल रूप से पता लगाती हैं कि कैसे 3:27 में अपनी अवधारणा का सही ढंग से प्रतिनिधित्व करते हैं 3:29 वही स्थान जहाँ छवि निर्माण 3:32 प्रक्रिया जो मैंने अपने पिछले वीडियो में वर्णित की थी 3:34 ह ाेती है 3:36 फिर उसमें से एक नकली शब्द निकालें 3:38 भविष्य की पीढ़ियों को इस तरह मार्गदर्शन करें 3:41 किसी भी भविष्य में आपकी अवधारणा को इंजेक्ट कर सकता है 3:44 पीढ़ियों और कुछ और शब्द जोड़ें 3:46 पीढ़ी को और भी आगे की स्थिति 3:49 उसी पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज का उपयोग करना 3:51 मॉडल तो आप बस प्रशिक्षण देंगे a 3:54 छोटा मॉडल यह समझने के लिए कि आपका 3:56 छवियां अव्यक्त स्थान में होती हैं 3:58 उपयोग करने के लिए उन्हें एक नकली शब्द में परिवर्तित करें 4:00 उनका नियमित छवि निर्माण मॉडल आप 4:03 छवि को छूना भी नहीं है 4:05 जनरेशन मॉडल और यह काफी बड़ा है 4:07 सौदा यह देखते हुए कि वे कितने महंगे हैं 4:09 प्रशिक्षित करने और वॉयला करने के लिए आप इस तरह से कर सकते हैं 4:12 छवि उत्पन्न करने के लिए एक समान मॉडल सिखाएं 4:14 आपकी पसंदीदा वस्तु के रूपांतर या 4:17 शक्तिशाली शैली स्थानान्तरण करें 4:19 बेशक यह सिर्फ का एक सिंहावलोकन है 4:21 यह नई विधि बहुत ही निपटने वाली है 4:24 दिलचस्प काम और मैं आपको आमंत्रित करता हूं 4:26 a . के लिए नीचे लिंक किए गए उनके पेपर को पढ़ें 4:28 दृष्टिकोण की गहरी समझ और 4:30 चुनौतियां यह एक बहुत ही जटिल कार्य है 4:33 और अभी भी बहुत सी सीमाएँ हैं 4:35 जैसे समय को समझने में लगता है 4:37 एक नकली शब्द में ऐसी अवधारणा जो है 4:39 लगभग दो घंटे अभी भी नहीं हुए हैं 4:42 को पूरी तरह से समझने में सक्षम 4:44 अवधारणा लेकिन बहुत करीब है 4:47 इस तरह के होने में भी बहुत सारे जोखिम हैं 4:49 उत्पाद सुलभ है जिसकी हमें आवश्यकता है 4:51 को एम्बेड करने में सक्षम होने की कल्पना पर विचार करें 4:54 एक विशिष्ट व्यक्ति की अवधारणा और 4:56 व्यक्ति को शामिल करते हुए कुछ भी उत्पन्न करें 4:58 कुछ ही सेकंड में यह काफी डरावना है और 5:01 इस तरह की तकनीक बस के आसपास है 5:03 कोना 5:04 मुझे आपके विचार सुनना अच्छा लगेगा 5:06 टिप्पणी अनुभाग या इस पर चर्चा करें 5:09 कलह सर्वर 5:10 वीडियो देखने के लिए धन्यवाद और मैं 5:12 अगले हफ्ते दूसरे के साथ मिलेंगे 5:14 अद्भुत कागज 5:22 [संगीत]