paint-brush
डेटा-केंद्रित एआई क्या है?द्वारा@whatsai
932 रीडिंग
932 रीडिंग

डेटा-केंद्रित एआई क्या है?

द्वारा Louis Bouchard6m2022/07/09
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

हमारे क्षेत्र में डेटा महत्वपूर्ण है, और हमारे मॉडल बेहद डेटा-भूखे हैं। फीडिंग इमेज जो वास्तविक दुनिया का प्रतिनिधित्व नहीं करती हैं, वे किसी काम के नहीं होंगे और मॉडल की सामान्यीकरण की क्षमता को खराब कर देंगे। यह वह जगह है जहां डेटा केंद्रित एआई चलन में आता है... वीडियो में और जानें: आपके पास जितना अधिक डेटा होगा, उतना ही बेहतर होगा। इसलिए आपको उन मॉडलों को बढ़ाने की जरूरत है, विशेष रूप से वास्तविक दुनिया के अनुप्रयोगों के लिए, विशेष रूप से वास्तविक दुनिया में आवेदन करने के लिए।

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - डेटा-केंद्रित एआई क्या है?
Louis Bouchard HackerNoon profile picture

जो चीज GPT-3 और डैल को शक्तिशाली बनाती है, वह बिल्कुल एक ही चीज है: डेटा।

हमारे क्षेत्र में डेटा महत्वपूर्ण है, और हमारे मॉडल बेहद डेटा-भूखे हैं। ये बड़े मॉडल, या तो जीपीटी के लिए भाषा मॉडल या डेल के लिए छवि मॉडल, सभी को एक ही चीज़ की आवश्यकता होती है: बहुत अधिक डेटा।

आपके पास जितना अधिक डेटा होगा, उतना ही बेहतर होगा। इसलिए आपको उन मॉडलों को बढ़ाने की जरूरत है, खासकर वास्तविक दुनिया के अनुप्रयोगों के लिए।

बड़े मॉडल बेहतर करने के लिए बड़े डेटासेट का उपयोग तभी कर सकते हैं, जब डेटा उच्च गुणवत्ता का हो।

वास्तविक दुनिया का प्रतिनिधित्व नहीं करने वाली छवियों को खिलाने से कोई फायदा नहीं होगा और यहां तक कि मॉडल की सामान्यीकरण की क्षमता भी खराब हो जाएगी। यह वह जगह है जहाँ डेटा-केंद्रित AI काम आता है ...

वीडियो में और जानें:

संदर्भ

►पूरा लेख पढ़ें: https://www.louisbouchard.ai/data-centric-ai/
डेटा-केंद्रित एआई: https://snorkel.ai/data-centric-ai
कमजोर पर्यवेक्षण: https://snorkel.ai/weak-supervision/
प्रोग्रामेटिक लेबलिंग: https://snorkel.ai/programmatic-labeling/
डेटा-केंद्रित एआई के लिए संसाधनों की क्यूरेटेड सूची: https://github.com/hazyresearch/data-centric-ai
स्नोर्कल के बारे में अधिक जानें: https://snorkel.ai/company/
मॉडल-केंद्रित से डेटा-केंद्रित AI - एंड्रयू एनजी:
सॉफ्टवेयर 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2
पेपर 1: रैटनर, ए.जे., डी सा, सीएम, वू, एस., सेल्सम, डी. और रे, सी.,
2016. डेटा प्रोग्रामिंग: जल्दी से बड़े प्रशिक्षण सेट बनाना। अग्रिमों
तंत्रिका सूचना प्रसंस्करण प्रणालियों में, 29.
पेपर 2: रैटनर, ए., बाख, एसएच, एहरेनबर्ग, एच., फ्राइज़, जे., वू, एस. और
आरई, सी।, 2017, नवंबर। स्नोर्कल: कमजोर के साथ तेजी से प्रशिक्षण डेटा निर्माण
पर्यवेक्षण। वीएलडीबी बंदोबस्ती की कार्यवाही में। अंतरराष्ट्रीय
बहुत बड़े डेटा बेस पर सम्मेलन (खंड 11, संख्या 3, पृष्ठ 269)। एनआईएच पब्लिक
पहुँच।
पेपर 3: आरई, सी (2018)। सॉफ्टवेयर 2.0 और स्नोर्कल: बियॉन्ड हैंड-लेबल
जानकारी। 24वें ACM SIGKDD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही
नॉलेज डिस्कवरी एंड डेटा माइनिंग।
►माई न्यूज़लेटर (आपके ईमेल को साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/

वीडियो प्रतिलेख

0:00

क्या gpt3 और दिल्ली को शक्तिशाली बनाता है?

0:03

बिल्कुल वही बात डेटा डेटा है

0:06

हमारे क्षेत्र में महत्वपूर्ण हैं और हमारे मॉडल हैं

0:08

अत्यधिक डेटा भूखे इन बड़े मॉडलों

0:11

जीपीटी या छवि के लिए या तो भाषा मॉडल

0:13

दिल्ली के लिए सभी मॉडलों को समान की आवश्यकता होती है

0:15

चीज़

0:16

दुर्भाग्य से बहुत अधिक डेटा अधिक

0:19

डेटा आपके पास बेहतर है इसलिए आप

0:21

विशेष रूप से उन मॉडलों को बढ़ाने की जरूरत है

0:24

वास्तविक दुनिया के अनुप्रयोगों के लिए बड़ा

0:26

मॉडल बड़े डेटासेट का उपयोग कर सकते हैं

0:28

डेटा उच्च होने पर ही सुधार करें

0:30

गुणवत्ता वाले खिला चित्र जो नहीं करते हैं

0:32

वास्तविक दुनिया का प्रतिनिधित्व नहीं होगा

0:34

उपयोग करें और मॉडल की क्षमता को भी खराब करें

0:37

इसे सामान्य बनाने के लिए डेटा केंद्रित है

0:39

एआई प्ले डेटा सेंट्रिक एआई में भी आता है

0:43

सॉफ्टवेयर 2.0 के रूप में संदर्भित सिर्फ एक है

0:46

यह कहने का शानदार तरीका है कि हम अपना अनुकूलन करते हैं

0:48

मॉडल को अधिकतम करने के लिए डेटा

0:50

मॉडल-केंद्रित के बजाय प्रदर्शन

0:52

जहां आप सिर्फ मॉडल के ट्वीक करेंगे

0:54

निश्चित रूप से निश्चित डेटासेट पर पैरामीटर

0:57

सर्वश्रेष्ठ होने के लिए दोनों को करने की आवश्यकता है

0:59

परिणाम संभव है लेकिन डेटा बहुत दूर है

1:02

इस वीडियो में यहां बड़ा खिलाड़ी

1:04

स्नोर्कल के साथ साझेदारी मैं कवर करूंगा

1:06

डेटा केंद्रित एआई क्या है और कुछ की समीक्षा करें

1:09

क्षेत्र में बड़ी प्रगति आप करेंगे

1:11

जल्दी से समझें कि डेटा ऐसा क्यों है

1:13

मशीन लर्निंग में महत्वपूर्ण जो है

1:15

स्नोर्कल का मिशन . से एक उद्धरण लेते हुए

1:17

उनकी ब्लॉग पोस्ट नीचे टीमों से जुड़ी होगी

1:19

अक्सर नए मॉडल लिखने में समय बिताते हैं

1:21

उनकी समस्या को समझने के बजाय

1:23

और डेटा में इसकी अभिव्यक्ति अधिक गहराई से

1:26

एक नया मॉडल लिखना एक सुंदर है

1:28

की गंदगी से छिपने की शरण

1:30

वास्तविक समस्याओं को समझना और यह

1:33

इस वीडियो का उद्देश्य एक में मुकाबला करना है

1:36

वाक्य डेटा केंद्रित एआई का लक्ष्य है

1:38

हमारे डेटा से ज्ञान को एन्कोड करने के लिए

1:40

डेटा को अधिकतम करके मॉडल

1:42

गुणवत्ता और मॉडल का प्रदर्शन यह सब

1:45

2016 में स्टैनफोर्ड में एक पेपर के साथ शुरू हुआ

1:48

डेटा प्रोग्रामिंग कहा जाता है जो बड़ा बनाता है

1:51

प्रशिक्षण सेट जल्दी से शुरू कर रहा है a

1:54

प्रशिक्षण डेटा सेट को लेबल करने के लिए प्रतिमान

1:56

प्रोग्रामेटिक रूप से बजाय हाथ से

1:58

यह एक अनंत काल पहले ai . के संदर्भ में था

2:01

अनुसंधान युग जैसा कि आप सबसे अच्छी तरह जानते हैं

2:04

तिथि उपयोग के दृष्टिकोण पर्यवेक्षित

2:05

एक ऐसी प्रक्रिया सीखना जिसमें मॉडल प्रशिक्षित होते हैं

2:08

डेटा और लेबल पर और करना सीखें

2:10

डेटा दिए जाने पर लेबल को पुन: पेश करें

2:13

उदाहरण के लिए आप एक मॉडल को कई खिलाएंगे

2:15

उनके साथ बत्तख और बिल्लियों की छवियां

2:17

संबंधित लेबल और मॉडल से पूछें

2:20

पता करें कि तस्वीर में क्या है तो उपयोग करें

2:23

मॉडल को प्रशिक्षित करने के लिए वापस प्रचार

2:25

यदि आप हैं तो यह कितनी अच्छी तरह सफल होता है, इस पर आधारित

2:27

पीछे के प्रसार से अपरिचित i

2:29

वीडियो देखने के लिए रोकने के लिए आमंत्रित करें

2:31

मेरा एक मिनट का स्पष्टीकरण और वापसी

2:33

जहां आपने छोड़ा था क्योंकि डेटा सेट हैं

2:35

बड़ा और बड़ा होता जाता है

2:37

उन्हें क्यूरेट करना कठिन होता जा रहा है

2:39

और हानिकारक डेटा को हटाने की अनुमति देने के लिए

2:41

केवल प्रासंगिक डेटा पर ध्यान केंद्रित करने के लिए मॉडल जो आप

2:44

पता लगाने के लिए अपने मॉडल को प्रशिक्षित नहीं करना चाहता

2:46

एक बिल्ली जब यह एक बदमाश है तो वह समाप्त हो सकता है

2:48

बुरी तरह से जब मैं डेटा का उल्लेख करता हूं तो ध्यान रखें

2:51

कि यह किसी भी प्रकार का डेटा सारणीबद्ध हो सकता है

2:53

चित्र पाठ वीडियो आदि अब जो आप कर सकते हैं

2:57

किसी भी कार्य के लिए आसानी से एक मोडल डाउनलोड करें

2:59

डेटा सुधार में बदलाव और

3:01

अनुकूलन अपरिहार्य मोटर है

3:03

उपलब्धता हाल के डेटा का पैमाना

3:05

सेट और डेटा निर्भर सीडी मॉडल

3:08

हैं इसलिए इस तरह के एक प्रतिमान के लिए

3:10

लेबलिंग प्रशिक्षण डेटा सेट

3:12

प्रोग्रामेटिक रूप से आवश्यक हो जाता है

3:14

अब मुख्य समस्या होने के साथ आती है

3:17

हमारे डेटा के लिए लेबल जिन्हें रखना आसान है

3:19

बिल्लियों और कुत्तों के हजारों चित्र लेकिन

3:22

यह जानना बहुत कठिन है कि कौन सी छवियां

3:24

एक खोदा है और किन छवियों में एक बिल्ली है

3:26

और उनका सटीक होना और भी कठिन

3:28

विभाजन के लिए छवि में स्थान

3:31

उदाहरण के लिए कार्य

3:32

पहला पेपर एक डेटा पेश करता है

3:34

प्रोग्रामिंग ढांचा जहां उपयोगकर्ता

3:36

या तो एमएल इंजीनियर या डेटा साइंटिस्ट

3:38

कमजोर पर्यवेक्षण रणनीतियों को व्यक्त करता है:

3:41

एक जेनरेटर का उपयोग करके लेबलिंग फ़ंक्शन

3:43

मॉडल जो डेटा के सबसेट को लेबल करता है

3:46

और पाया कि डेटा प्रोग्रामिंग हो सकती है

3:48

गैर-विशेषज्ञों के लिए बनाने का एक आसान तरीका

3:51

प्रशिक्षण के दौरान मशीन लर्निंग मॉडल

3:53

डेटा सीमित है या संक्षेप में उपलब्ध नहीं है

3:56

वे दिखाते हैं कि बिना डेटा के कैसे सुधार किया जा सकता है

3:58

रखते हुए बहुत अतिरिक्त काम

4:00

मॉडल वही सुधार परिणाम जो है

4:03

अब एक स्पष्ट लेकिन आवश्यक कदम

4:05

पत्थर यह वास्तव में दिलचस्प है

4:07

इस क्षेत्र में फाउंडेशन पेपर और मूल्य

4:09

पढ़ा

4:10

दूसरा पेपर जिसे हम यहां कवर करते हैं, कहलाता है

4:12

स्नोर्कल रैपिड ट्रेनिंग डेटा क्रिएशन

4:15

कमजोर पर्यवेक्षण के साथ यह पेपर

4:17

से एक साल बाद भी प्रकाशित

4:19

स्टैनफोर्ड विश्वविद्यालय एक लचीला प्रस्तुत करता है

4:22

लेबलिंग लिखने के लिए इंटरफ़ेस परत

4:24

निरंतर अनुभव के आधार पर कार्य

4:27

इस विचार पर कि प्रशिक्षण डेटा है

4:28

तेजी से बड़ा और कठिन

4:30

मॉडल में अड़चन पैदा करने वाला लेबल

4:33

प्रदर्शन वे पेश करते हैं स्नोर्कल a

4:36

सिस्टम जो पिछले को लागू करता है

4:37

एंड-टू-एंड सिस्टम सिस्टम में पेपर

4:40

लोगों को ज्ञान विशेषज्ञों की अनुमति दी

4:42

जो डेटा को आसानी से समझ सके

4:44

लेबलिंग कार्यों को परिभाषित करें

4:46

इसके बजाय डेटा को स्वचालित रूप से लेबल करें

4:48

हाथ से एनोटेशन बिल्डिंग मॉडल बनाना

4:51

2.8 गुना तेज जबकि भी

4:54

a . द्वारा भविष्य कहनेवाला प्रदर्शन बढ़ाना

4:56

इसके बजाय फिर से 45.5 प्रतिशत का औसत

5:00

उपयोगकर्ताओं या ज्ञान को लेबल करने के लिए

5:03

विशेषज्ञ ये लेबलिंग फ़ंक्शन लिखते हैं

5:05

फ़ंक्शंस बस को अंतर्दृष्टि देते हैं

5:07

देखने के लिए पैटर्न पर मॉडल or

5:10

कुछ भी विशेषज्ञ वर्गीकृत करने के लिए उपयोग करेगा

5:12

मॉडल का पालन करने में मदद करने वाला डेटा

5:14

एक ही प्रक्रिया तो सिस्टम लागू होता है

5:17

नव लिखित लेबलिंग कार्य समाप्त

5:19

हमारा बिना लेबल वाला डेटा और सीखता है a

5:21

आउटपुट को संयोजित करने के लिए जनरेटिव मॉडल

5:24

संभाव्य लेबल में लेबल जो

5:26

फिर हमारे अंतिम गहरे को प्रशिक्षित करने के लिए उपयोग किया जाता है

5:29

तंत्रिका नेटवर्क स्नोर्कल यह सब करता है

5:32

स्वयं इस पूरी प्रक्रिया को सुगम बना रहे हैं

5:35

पहली बार के लिए

5:36

हमारा आखिरी पेपर भी स्टैनफोर्ड से

5:39

एक और साल बाद सॉफ्टवेयर पेश करता है

5:42

2.0 यह एक पेज का पेपर एक बार फिर है

5:45

उसी गहराई के साथ आगे बढ़ते हुए

5:47

डेटा केंद्रित दृष्टिकोण सीखना

5:49

प्रशिक्षण का उत्पादन करने के लिए लेबलिंग कार्य

5:51

बड़े लेबल रहित डेटा सेट के लिए लेबल और

5:54

हमारे अंतिम मॉडल को प्रशिक्षित करें जो है

5:56

विशाल इंटरनेट के लिए विशेष रूप से उपयोगी

5:59

स्क्रैप किए गए डेटा सेट जैसे कि उपयोग किया जाता है

6:01

Google एप्लिकेशन जैसे Google विज्ञापन

6:03

की कमी से निपटने के लिए जीमेल यूट्यूब आदि

6:06

हाथ से लेबल किया गया डेटा बेशक यह सही है

6:09

प्रगति का एक सिंहावलोकन और

6:10

डेटा केंद्रित ai और i . की दिशा

6:13

पढ़ने के लिए आपको पुरजोर आमंत्रित करते हैं

6:14

करने के लिए नीचे विवरण में जानकारी

6:16

डेटा केंद्रित ai का पूरा दृश्य है

6:19

यह कहाँ से आता है और कहाँ है

6:21

हेडिंग मैं स्नोर्कल को भी धन्यवाद देना चाहता हूं

6:24

इस वीडियो को प्रायोजित कर रहा हूं और मैं आपको आमंत्रित करता हूं

6:26

अधिक के लिए अपनी वेबसाइट देखने के लिए

6:28

जानकारी यदि आपने नहीं सुना है

6:30

स्नोर्कल इससे पहले कि आप अभी भी इस्तेमाल कर चुके हैं

6:32

जैसे कई उत्पादों में उनका दृष्टिकोण

6:35

यूट्यूब गूगल विज्ञापन जीमेल और अन्य बड़े

6:37

अनुप्रयोग

6:39

वीडियो देखने के लिए धन्यवाद

6:41

समाप्त

[संगीत]