paint-brush
यदि प्रशिक्षण डेटा बेकार है, तो एआई भी बेकार हैद्वारा@mytiki
758 रीडिंग
758 रीडिंग

यदि प्रशिक्षण डेटा बेकार है, तो एआई भी बेकार है

द्वारा mytiki.com
mytiki.com HackerNoon profile picture

mytiki.com

@mytiki

F*CK! Can you say that on a brand bio? ...

5 मिनट read2023/05/31
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

बहुत सारा प्रशिक्षण डेटा बेकार है। मैंने प्रशिक्षण डेटा चूसने और जिलेट रेज़र की बिक्री के बीच के संबंध को नहीं खोदा है, लेकिन मुझे लगता है कि वहाँ कुछ है। इसके ऊपर चूसना, यह महंगा है।
featured image - यदि प्रशिक्षण डेटा बेकार है, तो एआई भी बेकार है
mytiki.com HackerNoon profile picture
mytiki.com

mytiki.com

@mytiki

F*CK! Can you say that on a brand bio? Anyway, monetize and purchase zero-party data.

0-item
1-item
2-item

STORY’S CREDIBILITY

Original Reporting

Original Reporting

This story contains new, firsthand information uncovered by the writer.

Opinion piece / Thought Leadership

Opinion piece / Thought Leadership

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Vested Interest

Vested Interest

This writer has a vested interested be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

एक आदमी अनिद्रा से समझौता करता है और सुबह 4:30 बजे बिस्तर से गिर जाता है। सूरज अपना दैनिक पदार्पण करने से घंटों दूर है, लेकिन इस आदमी के लिए यह मायने नहीं रखता। शेव करने की कोई जरूरत नहीं है। वह चार दिन से नहीं आया है। वह तुरंत एक सिगरेट जलाता है - अज्ञात (आपके लिए) मूल की एक हाथ से लुढ़की हुई सिगरेट। वह रेडियो पर फ़्लिक करता है। तुरंत बंद कर देता है। यह क्षण मौन का पात्र है। आईने में देखता है। नग्न। हिरन नग्न. अपने आप में देखता है। अपने आप में गहरा। सिगरेट को अपने हाथ के पिछले हिस्से से बाहर निकालता है और शौचालय में फैंक देता है। अंत में, उसके मस्तिष्क में इधर-उधर झुनझुने वाले शब्द उसके होठों पर फुदक-फुदक कर फुसफुसाते हैं - "हमारा प्रशिक्षण डेटा f * cking बेकार है।"


और यह महंगा भी है!


देखिए, हर कोई और उनकी दादी जानती हैं कि एआई बहुत बड़ा है। हो सकता है कि आपकी दादी आपसे बात करने से ज्यादा स्नैपचैट एआई से बात करती हों। किसी भी तरह से, जबकि AI निश्चित रूप से एक मनोरंजन कारक प्रदान करता है, किसी भी चीज़ से अधिक यह सर्वथा उपयोगी हो सकता है। और व्यवसाय एआई पहलों को अभूतपूर्व गति से अपना रहे हैं। मुझे पता है कि दुनिया को एआई के विकास के बारे में एक और ब्लॉग की जरूरत नहीं है, लेकिन मैं इसे एक सेकंड में मिला दूंगा।


सबसे पहले, इसे प्राप्त करें: 1923 में, केवल 0% व्यवसायों ने कृत्रिम बुद्धिमत्ता को अपने संगठन के लिए उच्च प्राथमिकता माना। बहुत खूब। 2020 तक सर्वेक्षण में शामिल 54% आईटी पेशेवर एआई को अत्यधिक प्राथमिकता दे रहे थे। 2022 के अंत तक, यह संख्या 69% (अच्छा) तक चढ़ गई थी , केवल दो वर्षों में 15% की वृद्धि हुई थी।


लेकिन, एआई/एमएल उपयोगकर्ताओं के करीब आधे (47%) ने पिछले दो वर्षों में अपनी पहल शुरू कर दी है और सर्वेक्षण में शामिल 78% विचार के चरण से आगे बढ़कर क्रियान्वयन में चले गए हैं। इसका अर्थ क्या है? सांख्यिकीय रूप से कहा जाए तो, एआई कार्यक्रम और पहल चलाने वाले बहुत सारे व्यवसाय हैं जो क्षेत्र में कुल नए हैं और संभवतः उन्हें पता नहीं है कि वे क्या कर रहे हैं। उस पुराने डॉग केमिस्ट मेम का 47% में से कौन सा प्रतिशत है? खैर, मैं आपके लिए इसका उत्तर नहीं दे सकता। जो मैं आपको बता सकता हूं वह यह है कि एआई/एमएल यात्रा कंपनियों में सबसे बड़ी चुनौती कुशल प्रतिभा (67%) की कमी है, इसके बाद एल्गोरिदम और मॉडल विफलता (61%) है। जब एआई को अपनाने की बात आती है, तो सबसे अधिक बाधा कार्यान्वयन की लागत है। और एआई बजट का सबसे बड़ा हिस्सा क्या लेता है? प्रशिक्षण डेटा की सोर्सिंग और कार्यान्वयन, बजट के 13% पर चेकिंग।


बहुत सारा डेटा बिल्कुल खराब है। यह अविश्वसनीय है, इसे प्रबंधित करना मुश्किल है, और यह पूरी तरह से संभव है कि AI को शोधित डेटा पर प्रशिक्षित किया गया है, जिसका अर्थ है कि मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाने वाला डेटा किसी अन्य AI मॉडल से प्राप्त किया गया है जो पहले से ही स्केची डेटा पर प्रशिक्षित था। इस शब्दावली के परिचय के लिए ओल्गा मैक को चिल्लाएं।


तो डेटा खराब है, यह महंगा है, यह एक टी-शर्ट के बराबर हो सकता है जिसमें एक थ्रिफ्ट स्टोर से खरीदे गए टाइपो (मेरे दोस्त के नोमर "गार्सीपारा" रेड सोक्स शर्ट के लिए चिल्लाएं), और एआई को लागू करने वाले व्यवसायों का एक विशाल समूह नया है और चीजों को काम करने के लिए संसाधनों और प्रतिभा की कमी है, अकेले ही इसे टिकाऊ बनाए रखें।


इसके लिए, 87% अधिकारी उच्च गुणवत्ता वाले प्रशिक्षण डेटा के लिए अधिक भुगतान करने को तैयार हैं, जबकि 66% ने अनुमान लगाया है कि प्रशिक्षण डेटा की उनकी आवश्यकता केवल 0% की तुलना में कम होने की भविष्यवाणी करती है। यह मेरे 1923 के सर्वेक्षण से 0% की वृद्धि है।


अधिक संख्या आप कहते हैं? आपको और भी नम्बर मिलेंगे। 2022 में, आर्टिफिशियल इंटेलिजेंस पर वैश्विक खर्च लगभग 118 बिलियन डॉलर था । 2026 तक, यह संख्या 300 अरब डॉलर तक पहुंचने की उम्मीद है। $300 बिलियन का 13% है...39 बिलियन डॉलर। अब मुझे पता है कि यह बिल्कुल नहीं है कि आंकड़े कैसे काम करते हैं, इसलिए मुझसे पूछताछ न करें। लेकिन संक्षेप में: एआई के प्रशिक्षण डेटा के लिए वैश्विक खर्च एक बहु-अरब डॉलर का उद्योग है। कारक यह है कि इनमें से 66% अधिकारियों को प्रशिक्षण डेटा की आवश्यकता बढ़ने की उम्मीद है और 87% उच्च गुणवत्ता वाले डेटा के लिए अधिक खर्च करने को तैयार हैं ... ठीक है, आपको यह बात समझ में आ गई है।

अधिक कारक

इसके शीर्ष पर, विश्वसनीय डेटा स्रोत की क्षमता 2023 में अतीत की तुलना में कहीं अधिक कठिन है। जीडीपीआर और सीसीपीए जैसी निजता पहलों का उद्देश्य उपभोक्ता डेटा की सुरक्षा करना है। Google और Apple जैसे प्रमुख तकनीकी खिलाड़ी तृतीय-पक्ष डेटा संग्रह को और अधिक कठिन बना रहे हैं। चल रही कानूनी लड़ाइयों में एआई प्रशिक्षण डेटा सबसे आगे है, एक लोकप्रिय भावना के साथ कि एआई को प्रशिक्षित करने के लिए वेब डेटा को स्क्रैप करना और "उचित उपयोग" का दावा करना अतीत की बात बनने के खतरे में है। 2000 के दशक की शुरुआत में नैप्स्टर का पतन एक उपयुक्त तुलना हो सकती है। जबकि यह स्पष्ट रूप से स्पष्ट था कि नैप्स्टर कॉपीराइट सामग्री और बौद्धिक संपदा के अवैध साझाकरण द्वारा संचालित था, एक समान प्रक्षेपवक्र कुछ ऐसा है जो एआई का उपयोग करने वाले व्यवसायों पर विचार करने के लिए मजबूर है। रेत घंटे के चश्मे के माध्यम से फ़िल्टर हो सकती है, और मेटालिका की "टू व्हॉट द बेल टोल्स" उन लोगों के लिए खेलने की संभावना है जिन्होंने अपने एआई पहलों को भविष्य में प्रमाणित करने के प्रयास में नहीं लगाया है।

एक नया Spotify

तो समाधान क्या है? अच्छा, यह जटिल है। लेकिन नैप्स्टर, काज़ा और लाइमवायर की राख से Spotify आया, जिसने "चोरी से बेहतर" कुछ बनाने के आधार पर काम किया। इसमें स्पॉटिफाई प्लेटफॉर्म पर स्ट्रीम की गई सामग्री को ठीक से लाइसेंस देने के लिए रिकॉर्ड लेबल और एजेंसियों के साथ हैशिंग आउट शामिल है। क्या एआई के लिए भी यही संभव है? हमें ऐसा लगता है। 85% उपभोक्ता कूपन या छूट के लिए डेटा का आदान-प्रदान करेंगे। यह डेटा अधिग्रहण मॉडल के लिए मार्ग प्रशस्त करता है जो उपयोगकर्ताओं को भाग लेने के लिए प्रोत्साहित करता है, मूल्यवान शून्य-पार्टी डेटा उत्पन्न करता है जिसका उपयोग एआई प्रशिक्षण सहित कई चीजों के लिए किया जा सकता है। हमने ज़ीरो-पार्टी डेटा को लाइसेंस देने के लिए कुछ बनाया है, और स्नोफ्लेक के साथ साझेदारी में एक सुविधा भी बनाई है ताकि व्यवसायों को लाइसेंस प्राप्त ज़ीरो-पार्टी डेटा को फिर से सूचीबद्ध करने की अनुमति मिल सके। उच्च-गुणवत्ता वाले प्रशिक्षण डेटा की इच्छा के आधार पर, यह एक अतिरिक्त राजस्व धारा के लिए एक विशाल अवसर साबित हो सकता है जो ग्राहक वफादारी भी बना सकता है। लेकिन पर्याप्त ब्रांड-वाई सामान। आप यहां और जान सकते हैं।

सारांश…

बहुत सारा प्रशिक्षण डेटा कमबख्त बेकार है। मैंने जिलेट रेज़र के प्रशिक्षण डेटा चूसने और बिक्री के बीच संबंध को नहीं खोला है, लेकिन मुझे लगता है कि वहां कुछ है। ऊपर से चूसना, यह महंगा है। अधिक से अधिक कंपनियां एआई को लागू करने के लिए समय और संसाधन समर्पित कर रही हैं, लेकिन उनमें से कई इस खेल के लिए नए हैं और उनकी पहल को अनुकूलित करने के लिए उचित टीम, बुनियादी ढांचे और गुणवत्ता डेटा की कमी है। कानूनी लड़ाई ने एआई प्रशिक्षण डेटा सोर्सिंग और संग्रह के "पुराने तरीकों" में एक रिंच फेंक दिया है, और गोपनीयता की पहल ने व्यवसायों के लिए अपने व्यवसाय को ईंधन देने के लिए आवश्यक डेटा एकत्र करना तेजी से कठिन बना दिया है। प्रेरणा के लिए Spotify जैसी कंपनियों को देखते हुए, कानूनी पहलू पर काबू पाना संभव माना जाता है। अपने ब्रांड अनुभवों में अधिक वैयक्तिकरण और अनुकूलन की इच्छा के साथ युग्मित डेटा साझाकरण पर उपभोक्ता भावना को देखते हुए, हमने पुन: बिक्री के लिए शून्य-पक्ष डेटा लाइसेंसिंग के लिए एक विशाल बाजार को मान्यता दी है (कई अन्य उपयोग मामलों के बीच)। अरे, $300 बिलियन का 13% फिर से क्या है?


शेन फारिया, सह-संस्थापक @TIKI द्वारा लिखित

L O A D I N G
. . . comments & more!

About Author

mytiki.com HackerNoon profile picture
mytiki.com@mytiki
F*CK! Can you say that on a brand bio? Anyway, monetize and purchase zero-party data.

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD