1,407 रीडिंग

शीर्ष कंप्यूटर विजन अनुप्रयोग और अवसर

द्वारा Sasha Andrieiev17m2022/08/19

बहुत लंबा; पढ़ने के लिए

एआई तब होता है जब मशीनें और कंप्यूटर सिस्टम मानव खुफिया प्रक्रियाओं का अनुकरण करते हैं। कम से कम 90% टेक दिग्गज एआई में निवेश करते हैं, और आधी साक्षात्कार वाली कंपनियां इसका इस्तेमाल करती हैं। कंप्यूटर विज़न को पहले ही सड़क यातायात, बैंक भुगतान और सामाजिक नेटवर्क में एकीकृत कर दिया गया है। कंप्यूटर विज़न का विचार सबसे पहले किसी भी फॉन्ट (ऑप्टिकल कैरेक्टर रिकग्निशन) या यहां तक कि हाथ से लिखे टेक्स्ट के प्रिंटेड टेक्स्ट पर लागू किया गया था। इस सफलता के बाद, व्यापार, मनोरंजन, परिवहन, स्वास्थ्य देखभाल और रोजमर्रा की जिंदगी में बहुत कुछ किया जा रहा है। यह सीखने का समय है कि एआई विज़न कैसे काम करता है और यह तय करता है कि इस पर भरोसा करना है या नहीं।

Companies Mentioned

featured image - शीर्ष कंप्यूटर विजन अनुप्रयोग और अवसर

आर्टिफिशियल इंटेलिजेंस (एआई) एक ऐसा शब्द है जिसे आपने सुना होगा, भले ही आप आईटी की दुनिया से हों। एआई तब होता है जब मशीनें और कंप्यूटर सिस्टम मानव खुफिया प्रक्रियाओं का अनुकरण करते हैं। अभी, एआई सचमुच दुनिया पर कब्जा कर रहा है - कम से कम 90% तकनीकी दिग्गज इसमें निवेश करते हैं। डेटा और एआई लीडरशिप एग्जीक्यूटिव सर्वे के अनुसार, सर्वेक्षण में भाग लेने वाली एआई-फ्रेंडली कंपनियों की संख्या एक साल में दोगुनी हो गई है। एक अन्य सर्वेक्षण में कहा गया है कि आधे साक्षात्कार वाली कंपनियां एआई का उपयोग करती हैं।

एआई के कुछ और विशिष्ट अनुप्रयोगों में विशेषज्ञ प्रणाली, प्राकृतिक भाषा प्रसंस्करण, वाक् पहचान और मशीन (कंप्यूटर) दृष्टि शामिल हैं। बाद के प्रकार के AI - कंप्यूटर विज़न - को पहले ही सड़क यातायात, बैंक भुगतान और सामाजिक नेटवर्क में एकीकृत कर दिया गया है। पिछले दशकों से, AI विज़न ने मानव तक पहुँचने में सटीकता के साथ कई कार्यों को हल करना सीख लिया है।

"जैसा कि कई अन्य लोगों ने देखा और बताया है, नियोकोर्टेक्स में अपने सभी इनपुट तौर-तरीकों में एक समान रूप से समान वास्तुकला है। शायद प्रकृति ने एक बहुत ही समान शक्तिशाली वास्तुकला से ठोकर खाई है और इसे समान रूप से दोहराया है, केवल कुछ विवरणों को अलग कर दिया है। वास्तुकला में यह समेकन बदले में सॉफ्टवेयर, हार्डवेयर और बुनियादी ढांचे पर ध्यान केंद्रित करेगा और एआई में प्रगति को और तेज करेगा। [...] वैसे भी, रोमांचक समय। ” - टेस्ला के लिए कंप्यूटर विज़न विकसित करने के लिए एलोन मस्क द्वारा शिकार की गई लेडी करपथी ने एआई विजन के बारे में ट्वीट किया ।

कई कंपनियों ने आर्टिफिशियल इंटेलिजेंस कार्यों में कंप्यूटर विज़न का उपयोग करना शुरू कर दिया है। करपथी एआई-चालित कारों पर काम कर रही है। नासा अंतरिक्ष यात्रियों को ट्रैक करने के लिए एआई विज़न का उपयोग करता है, और पुलिस इसका उपयोग अपराधियों को ट्रैक करने के लिए करती है। एआई विजन हमारी दिनचर्या का एक ठोस हिस्सा बन गया है। क्या आपने नोटिस किया है कि कंप्यूटर विज़न आपके लिए रोज़ कहाँ काम करता है? हम शर्त लगाते हैं कि आप इसे रोजाना इस्तेमाल करते हैं। कम से कम, यदि आप Amazon, Apple या Google क्लाइंट हैं तो आप ऐसा करते हैं।

यह देखते हुए कि कंप्यूटर विज़न पहले से ही हमारे जीवन का हिस्सा बन चुका है, यह सीखने का समय है कि एआई विजन कैसे काम करता है और यह तय करता है कि इस पर भरोसा करना है या नहीं। पांच साल पहले, हमने एआई को "बच्चे" के रूप में सोचा था। क्या यह इतना बड़ा हो गया है कि इस पर भरोसा किया जा सकता है? हम अनुशंसा करते हैं कि आप यह पता लगाने के बाद स्वयं निर्णय लें:

लोगों को एआई विजन विकसित करने के लिए किसने प्रेरित किया
क्या एआई की दृष्टि मानव के साथ समानता रखती है
एआई विजन कैसे काम करता है
जहां हम एआई विजन से मिलते हैं
कंप्यूटर विजन क्या सक्षम नहीं है

कंप्यूटर विजन का विचार

एक बार लोगों ने दिमाग की तरह काम करने के लिए कंप्यूटर सिखाने का फैसला किया। यह विचार मुख्य रूप से मनोवैज्ञानिक फ्रैंक रोसेनब्लैट का था। कई लोग उन्हें एआई का जनक कहते हैं। 1950 के दशक के उत्तरार्ध में, रोसेनब्लैट ने जीव विज्ञान और गणित की मदद से एक कंप्यूटर को एक तंत्रिका नेटवर्क का अनुकरण किया। कुछ सीखने के लिए, मानव मस्तिष्क में न्यूरॉन्स कनेक्शन बनाते हैं। इस सिद्धांत ने कृत्रिम बुद्धि की नींव रखी।

एमआईटी के सह-संस्थापक मार्वल मिन्स्की ने अगला कदम उठाया। उन्हें उम्मीद थी कि उनका छात्र गर्मियों में "देखी गई" हर चीज का वर्णन करने के लिए कंप्यूटर को सिखाएगा। यह कहने योग्य है कि यह एक ग्रीष्मकालीन परियोजना थी और यह विफल रही। हालाँकि कंप्यूटर अभी भी छवियों को सटीक रूप से पहचानने में सक्षम नहीं था, लेकिन उसने चित्रों में वस्तुओं के किनारों को पहचान लिया।

एआई विज़न को सबसे पहले किसी भी फॉन्ट (ऑप्टिकल कैरेक्टर रिकग्निशन) या यहां तक कि हाथ से लिखे टेक्स्ट (इंटेलिजेंट कैरेक्टर रिकग्निशन) के प्रिंटेड टेक्स्ट पर लागू किया गया था। यह 1970 के दशक में पहले से ही संभव था। इस सफलता के बाद व्यापार, मनोरंजन, परिवहन, स्वास्थ्य देखभाल और रोजमर्रा की जिंदगी में बहुत कुछ किया जा रहा है।

1970 का दशक कंप्यूटर दृष्टि के लिए महत्वपूर्ण था क्योंकि उस दशक में इसकी कई तकनीकी मूल बातें सामने आईं। 1980 के दशक में, कंप्यूटर पहले से ही जटिल कार्यों को पूरा कर सकते थे। डेविड मार्र और अन्य के लिए धन्यवाद, एआई वक्र और किनारों को देख सकता था, और समान दृश्य पैटर्न देख सकता था। बाद में, कंप्यूटर न केवल लाइनों को बल्कि छाया, फोकस और बनावट को भी पहचानने में सक्षम था। यह इमेज प्रोसेसिंग को बढ़ावा देने वाले कन्वेन्शनल न्यूरल नेटवर्क की बदौलत हुआ।

2001 में, AI पहले से ही चेहरों को पहचानने में सक्षम था। 2012 में एलेक्सनेट प्रोजेक्ट के बाद से, AI विज़न कम गलतियाँ कर रहा है, और अब यह बहुत अधिक सटीक है। बेशक, एआई के लिए नीचे की मुद्रा में बिल्ली को पहचानना अभी भी एक मुश्किल काम है। वैसे भी, यह सीख सकता है कि यह कैसे करना है।इमेजनेट टीम द्वारा भारी प्रयास किए गए, जिसने दुनिया भर में 50,000 से अधिक लोगों को छवियों को मैन्युअल रूप से टैग करने के लिए आकर्षित किया। इसने एआई को कुछ पैटर्न सीखने और अपने दम पर अध्ययन जारी रखने में मदद की।

क्या कंप्यूटर की दृष्टि जीवित चीजों के समान है?

सीएनएन (कन्वेंशनल न्यूरल नेटवर्क) का विचार न्यूरॉन सिद्धांत पर आधारित है। सीएनएन में परतें होती हैं जो छवि पैटर्न को धीरे-धीरे सरल से जटिल तक, रेखाओं से पूरे चेहरे तक पहचानती हैं। कृत्रिम परतें मस्तिष्क में न्यूरॉन्स की परतों के समान होती हैं। कृत्रिम न्यूरॉन्स को परसेप्ट्रोन कहा जाता है, और सीएनएन इन परसेप्ट्रोन का उपयोग करने वाला एक नेटवर्क है।

मानव दृष्टि के बारे में बोलते हुए, कुछ न्यूरॉन्स विशेष रूप से लंबवत रेखाओं के संपर्क में आने पर सक्रिय हो जाते हैं, अन्य - क्षैतिज या विकर्ण वाले। 1962 में हुबेल और विज़ल ने यही वर्णन किया। कृत्रिम न्यूरॉन्स को अलग करने के लिए विशिष्ट कार्यों को विभाजित करना सीएनएन भी करता है।

परसेप्ट्रॉन जानकारी का अलग-अलग मूल्यांकन करते हैं या, गणितीय रूप से बोलते हुए, कृत्रिम न्यूरॉन्स वजन इनपुट अलग-अलग तय करते हैं कि उनमें से कौन महत्वपूर्ण है। हमारा दिमाग भी इसी तरह सूचनाओं को फिल्टर करता है। हम उन सभी चेहरों को याद नहीं रख सकते जो हम दिन में देखते हैं। हम केवल मूल्यवान जानकारी सहेजते हैं। न्यूरोनल परतों के बारे में क्या?

सेरेब्रल कॉर्टेक्स छह क्षैतिज परतों में न्यूरॉन्स रखता है। ये परतें न्यूरॉन प्रकार और उनके कनेक्शन से भिन्न होती हैं। हालांकि, तंत्रिका संकेतन वास्तव में सभी प्रांतस्था परतों के माध्यम से एक पदानुक्रमित तरीके से नहीं जाता है। जरूरी नहीं कि सिग्नल पहली परत से आखिरी परत तक चले जाएं।

पूरे न्यूरॉन्स में सूचना प्रसारित करने का तरीका परतों की टोपोलॉजी पर निर्भर नहीं करता है। सीएनएन परतों में, यह करता है। सीएनएन न्यूरोनल परत सिद्धांत का एक अलग तरीके से उपयोग करता है: सूचना धीरे-धीरे परत से परत तक जाती है।

यह सब 1980 में कुनिहिको फुकुशिमा द्वारा प्रस्तावित "न्यूरोकॉग्निशन" से आया है। उन्होंने दो बुनियादी प्रकार की सीएनएन परतें पेश कीं: दृढ़ परतें और डाउनसैंपलिंग परतें। इन परतों में विभिन्न न्यूरॉन्स के समान इकाइयाँ होती हैं, जो विभिन्न जटिलता की दृश्य जानकारी को संसाधित कर सकती हैं। इन कोशिकाओं से प्रेरित फुकुशिमा ने एक कैस्केडिंग मॉडल प्रस्तावित किया जिसमें न्यूरॉन्स एक पदानुक्रमित तरीके से जानकारी पास करते हैं: परत से परत तक।

मानव दृष्टि की जांच से कृत्रिम बुद्धि दृष्टि का उदय हुआ। अब, कंप्यूटर सिस्टम गति में भी जटिल दुनिया को पहचानते हैं। इसके अलावा, वे खुद सीखते हैं कि इसे और अधिक प्रभावी ढंग से कैसे किया जाए।

एआई और कंप्यूटर विजन: वे कैसे संबंधित हैं?

कई उपलब्धियों के कारण कंप्यूटर विजन संभव हुआ। एआई उत्पाद विकसित करने के लिए गणित, जीव विज्ञान, प्रोग्रामिंग और इंजीनियरिंग को अक्सर जोड़ा जाता है। कंप्यूटर विज़न को AI विजन कहा जा सकता है क्योंकि यह AI तकनीकों पर आधारित है। साथ ही, मशीन विजन आंशिक रूप से कंप्यूटर विज़न से संबंधित है। उनकी प्रौद्योगिकियां अक्सर संयुक्त होती हैं। वैसे भी, लाइन पर उत्पादों की निगरानी या क्यूआर कोड पढ़ने जैसे कई कार्यों के लिए कंप्यूटर दृष्टि अधिक सामान्य है। तो यह कैसे काम करता है?

पिक्सेल: AI रंग और रेखाएँ देखता है

सटीक होने के लिए, AI पैटर्न को पहचानता है। यह उनके बारे में निष्कर्ष निकालने में सक्षम होने के लिए लाखों छवियों को संसाधित करता है। यह वह जगह है जहाँ गहरी शिक्षा होती है, जिससे एक प्रणाली सीखती है।

चित्र पिक्सेल से बने होते हैं। पिक्सेल के अपने कोड होते हैं, और प्रत्येक छवि को इन कोडों से युक्त डेटा के रूप में संग्रहीत किया जाता है। सभी रंग लाल, नीले और हरे रंग पर आधारित होते हैं (जैसे RGB मॉडल में, उदाहरण के लिए)। इसका अर्थ है कि प्रत्येक विशेष रंग के तीन मान होते हैं। जबकि हम कुत्तों को देखते हैं, कंप्यूटर नंबर देखता है। उदाहरण के लिए, AI नारंगी पिक्सेल को (255, 165, 0) संख्याओं के सेट के रूप में समझता है। नतीजतन, कंप्यूटर छवि के बजाय ऐसी संख्याओं का ग्रिड देखते हैं।

यदि कोई कंप्यूटर 1920*1080 पिक्सेल की छवि से संबंधित है, तो उसे 2,073,600 पिक्सेल पढ़ने होंगे। इस चित्र में एक कुत्ते को पहचानने के लिए, कंप्यूटर को छवि के सभी पिक्सेल में कुछ पैटर्न देखने होंगे। हम एक समान काम करते हैं: सबसे पहले, हम उन वस्तुओं की विशेषताओं को देखते हैं जो हमारे लिए सरल और परिचित हैं। यही कारण है कि हम एक कुत्ते को कार से केवल उनके सिल्हूट से अलग कर सकते हैं।

कंप्यूटर परिचित पैटर्न में भी अंतर करने की कोशिश करते हैं - कंप्यूटर के डेटाबेस से किसी चीज़ से जुड़ी रेखाएं या आकार देखें। डेटाबेस में जितने अधिक मिलान होंगे, उतनी ही अधिक संभावना होगी कि कंप्यूटर छवि को सही ढंग से वर्गीकृत करेगा।

प्रौद्योगिकी: मस्तिष्क से प्रेरित सीएनएन

कनवल्शन एक गणितीय कार्य है जो कनवल्शन न्यूरल नेटवर्क में तंत्रिका नेटवर्क के सिद्धांतों के साथ संयुक्त है। सीएनएन में परतें होती हैं जैसे कॉर्टेक्स करता है। इसमें परतें होती हैं जो धीरे-धीरे छवि सुविधाओं को सरल से कठिन तक फ़िल्टर करती हैं:

इनपुट परत
कनवल्शनल लेयर
पूलिंग परत
घनी परत।

सीएनएन का मूल कनवल्शन लेयर है। छवि को फिर से संख्याओं के ग्रिड के रूप में सोचें। इस परत पर, कनवल्शन मैट्रिक्स (सीएम) पर ग्रिड को गुणा करने के लिए धन्यवाद, एक कंप्यूटर एक छवि से सुविधाओं को निकाल सकता है। प्रत्येक ग्रिड के सेल पर सीएम को गुणा करने के बाद, हमें एक रूपांतरित ग्रिड मिलता है। कंप्यूटर अपने मूल्यों को किनारों या रेखाओं जैसी विशेषताओं के रूप में समझता है, और उनके पैटर्न एआई डेटाबेस से परिचित हो सकते हैं।

पैटर्न के बारे में भविष्यवाणियां करने और उनकी सटीकता की जांच करने के लिए कई बार कनवल्शन चलाया जाता है। जब तक सटीकता यथासंभव अधिक नहीं हो जाती तब तक तंत्रिका नेटवर्क पुनरावृत्ति करना जारी रखेगा। यह सभी परतों से संबंधित है।

यदि हमें कनवल्शन लेयर से आउटपुट के रूप में 10 फीचर मैट्रिसेस मिलते हैं, तो इन 10 मैट्रिस को इनपुट के रूप में अगली लेयर में पास कर दिया जाता है। पूलिंग और सघन परतें कई पुनरावृत्तियों के लिए भी एक छवि के साथ काम करती हैं। लेकिन उनके कार्य अलग हैं।

पूलिंग परत फीचर मैट्रिसेस के आयामों को कम करती है, इस प्रकार मुख्य जानकारी को सारांशित करती है। इनपुट छवि में साधारण वस्तु के पैटर्न से कई विचलन हो सकते हैं: रंग, घुमाव या फसल। वे वस्तु की पहचान को जटिल बनाते हैं। एक पूलिंग परत पर, अपरिवर्तनीय विशेषताएं जो छवि प्रसंस्करण में बाधा डालती हैं, बस डाउन-सैंपल या कम हो जाती हैं।

अंत में, घने परत को पिछली परतों के आउटपुट का उपयोग करके एक छवि को वर्गीकृत करना होता है। इसे पिछली परतों से सभी निकाली गई छवि सुविधाओं से निपटना होगा और उस छवि से वस्तुओं को नाम देना होगा। गहरी परत एक पूरी तरह से जुड़ी हुई परत है, जिसे अत्यधिक परस्पर जुड़े कृत्रिम न्यूरॉन्स के कारण कहा जाता है। अन्य परतों में इस शक्ति का अभाव है।

संकेंद्रित परतों में केवल पिछले स्तर से जुड़े न्यूरॉन्स होते हैं। यह किसी वस्तु की भविष्यवाणी के लिए पर्याप्त नहीं है। गहरी परत एक ही समय में कई परस्पर जुड़े न्यूरॉन्स का उपयोग करके इस कार्य का मुकाबला करती है। पिछली परतों से निकाली गई विशेषताओं पर अपनी भविष्यवाणी के आधार पर, गहरी परत वह है जहां कृत्रिम बुद्धि दृष्टि अपनी उच्च सटीकता तक पहुंचती है।

प्रोग्रामिंग स्तर पर, छवि प्रसंस्करण परतों के पदानुक्रम के भीतर एक साधारण छवि फ़िल्टरिंग की तरह नहीं दिखता है। अलग-अलग मामलों में, AI अलग-अलग मात्रा में परतों और इमेज प्रोसेसिंग के विभिन्न पुनरावृत्तियों से संबंधित है, और इसे अलग-अलग समय में करता है।

यह देखते हुए कि जटिल आधुनिक दुनिया को समझने के लिए एआई को अरबों छवियों को संसाधित करना पड़ता है, हम कल्पना करते हैं कि लोग बैठे हैं और एआई को अपना छात्र होने का नाटक करते हुए इसके डेटाबेस को भरने की कोशिश कर रहे हैं। अब, AI अपने दम पर अध्ययन करने की कोशिश कर रहा है। एआई एक स्मार्ट "बच्चा" है जिसे शुरू करने के लिए केवल सामग्री की आवश्यकता होती है।

एआई खुद सिखाता है: डीप लर्निंग

छवियों में वस्तुओं को तेजी से पहचानने में सक्षम होने के लिए, एआई को बहुत सारी सामग्रियों की आवश्यकता होती है। पहले चेहरे की पहचान तस्वीरों के मैनुअल प्रोसेसिंग के कारण संभव हुई थी। लोगों ने चेहरे की तस्वीरों पर सुविधाओं को चिह्नित किया, और एआई को केवल नए चेहरों की तुलना अपने तैयार डेटाबेस से करनी थी। एआई स्वचालित रूप से काम नहीं करता था, और त्रुटि बहुत बड़ी थी। कंप्यूटर विज़न के ऐसे कठिन कार्यों को पूरा करने के लिए मशीन लर्निंग का उपयोग किया जाता है।

अब, AI अपने आप सीखने के लिए गहन शिक्षण तकनीकों का उपयोग करता है। कुछ डेटाबेस के साथ खिलाए जाने के बाद एआई को ज्यादातर लोगों की आवश्यकता नहीं होती है। लोग एआई को हर एक नियम की व्याख्या नहीं करते हैं। वे सांख्यिकीय शिक्षण एल्गोरिदम लागू करते हैं - लॉजिस्टिक रिग्रेशन, डिसीजन ट्री, लीनियर रिग्रेशन, और सपोर्ट वेक्टर मशीन - ताकि एआई अपने आप नए पैटर्न को याद रखना शुरू कर दे। डीप लर्निंग स्वचालित रूप से सुविधाओं को कैप्चर करता है , और लोगों को इसे मैन्युअल रूप से करने की आवश्यकता नहीं होती है।

प्रशिक्षित करने के लिए, एआई को अभी भी पहले चरण में लोगों द्वारा पेश की गई सामग्री की आवश्यकता है। एक कुत्ते को पहचानने के लिए, डेवलपर्स को इसे तैयार करने के लिए कई कुत्तों को कंप्यूटर पर दिखाना पड़ता है। बाद में, एआई नई छवियों को संसाधित करते हुए खुद को पढ़ाना जारी रखेगा। इसका मतलब यह भी है कि एआई न केवल अपने डेटाबेस से संबंधित छवियों की तलाश करेगा, अब, यह भी जानता है कि ब्रांड-नई छवियों को कैसे वर्गीकृत किया जाए, अगर कुछ ऐसा ही पहले ही अपलोड या देखा जा चुका है।

कई एआई टेक दिग्गज मेटा और गूगल जैसे सोशल नेटवर्क दिग्गजों के साथ अपना काम साझा करते हैं या इसे ओपन-सोर्स छोड़ देते हैं। यह बड़ा डेटा एकत्र करने, उसे साझा करने और एआई को अध्ययन की अधिक संभावनाएं प्रदान करने में सक्षम बनाता है।

प्रारंभिक कंप्यूटर विज़न तकनीकों के लिए धन्यवाद, जिन्होंने बड़े डेटा के साथ मैन्युअल रूप से काम किया, कई आधुनिक एआई विजन प्रौद्योगिकियां विशिष्ट कार्यों को पूरा करती हैं। आज, दुनिया भर में हजारों टीमों द्वारा AI विजन विकसित किया जा रहा है।

उदाहरण के लिए, YOLO एल्गोरिदम रीयल-टाइम ऑब्जेक्ट डिटेक्शन और ट्रैकिंग को सक्षम बनाता है। इसका काम सिर्फ शॉट में किसी ऑब्जेक्ट का पता लगाना नहीं है बल्कि पिछले शॉट्स की सारी जानकारी को जोड़ना है। यू ओनली लुक वन्स सिद्धांत का अर्थ है कि न्यूरोनल नेटवर्क सभी वस्तुओं का पता लगाने के लिए केवल एक बार एक छवि को संसाधित करता है। फिर यह उन्हें देखता है। यह गहरी परतों और गहरी शिक्षा के कारण संभव है।

अब, कंप्यूटर विज़न लगभग एक आत्मनिर्भर तकनीक है जो कुछ भविष्यवाणियों को लोगों की तुलना में बेहतर बनाती है। Google द्वारा वित्त पोषित अध्ययन में, गहन शिक्षण एल्गोरिदम ने रेडियोलॉजिस्ट की तुलना में अधिक सटीकता के साथ स्तन में कैंसर कोशिकाओं का पता लगाया। एआई सिस्टम झूठी सकारात्मकता में 5.7% और 1.2% (यूएसए और यूके) और झूठे नकारात्मक में 9.4% और 2.7% की कमी दिखाते हैं। एआई पर भरोसा करने के लिए एक अच्छा तर्क, है ना?

स्टोर से ट्रैक्टर तक: कंप्यूटर विजन एप्लीकेशन

कंप्यूटर विज़न हमें एक छवि के बारे में क्या बता सकता है? हम जानते हैं कि यह वस्तुओं का पता लगा सकता है और वास्तविक समय में उन्हें ट्रैक भी कर सकता है। और क्या? Google स्ट्रीट व्यू का उपयोग करते हुए, अमेरिकी सड़कों पर कारों पर कब्जा करने वाले विजन AI ने विभिन्न शहरों के क्षेत्रों में आय और यहां तक कि मतदान पैटर्न की भविष्यवाणी की । उदाहरण के लिए, नागरिकों द्वारा डेमोक्रेट को वोट देने की संभावना है यदि उस शहर में पिकअप से अधिक पालकी हैं।

एक और चीज जो एआई लोगों के लिए कर सकती है वह है राष्ट्रीय उद्यानों में जानवरों की गिनती करना । वाइल्डबुक नामक एआई सॉफ्टवेयर स्वचालित रूप से प्रजातियों की पहचान उनकी उपस्थिति से करता है। यह एआई विज़न अद्वितीय कोट पैटर्न या कान की रूपरेखा या फ्लूक जैसी अन्य विशेषताओं को पहचान सकता है। वाइल्डबुक में 20 प्रजातियों का डेटाबेस है। अब यह विभिन्न पर्यावरणीय समस्याओं को हल करने के लिए माइक्रोसॉफ्ट एआई फॉर अर्थ प्रोग्राम के साथ सहयोग करता है। हम अक्सर जिराफ या जगुआर के साथ व्यवहार नहीं करते हैं, और ऐसी कहानियां हमें दिल से नहीं काटती हैं, जितना कि एआई से हम रोजाना मिलते हैं।

स्नैपचैट और अमेज़न

क्या आप जानते हैं कि आप स्नैपचैट कैमरे से किसी भी उत्पाद पर ध्यान केंद्रित कर सकते हैं, और एआई आपको यह उत्पाद अमेज़ॅन पर दिखाएगा? यदि आप किसी भौतिक अमेज़ॅन स्टोर पर जाते हैं, तो कंप्यूटर विज़न आपको देखेगा और इसके डेवलपर्स को बताएगा कि आप कैसा व्यवहार करते हैं। AI पूरी खरीदारी यात्रा से विश्लेषण निकाल सकता है: पार्किंग स्थल की सिफारिश करने से लेकर भावनात्मक डेटा एकत्र करने से लेकर ग्राहकों के लिए दिलचस्प उत्पादों के बारे में भविष्यवाणियां करने तक।

परदे के पीछे, AI निर्माण के स्तर पर भी मदद करता है। मशीन विजन का उपयोग करते हुए, दोषपूर्ण सामान या पैकेजिंग के लिए उत्पाद लाइनों की निगरानी की जाती है। वैसे, बारकोड पढ़ना वह है जो ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर), एक प्रकार का मशीन विजन है, जब आप कुछ खरीदते हैं।

यह संभावना है कि रिटेल का एक बड़ा हिस्सा जल्द ही एआई विजन को लागू करेगा। उत्पादों का पता लगाने और उन्हें ट्रैक करने के लिए विभिन्न टीमें पहले से ही नई तकनीकों पर काम कर रही हैं ताकि ये प्रौद्योगिकियां सस्ती हो सकें। इस प्रकार, अधिक स्टोर उनके लिए आवेदन कर सकेंगे।

अमेज़ॅन ने एआई को इतना काम सौंपा कि कंपनी ने एडब्ल्यूएस पैनोरमा की स्थापना की, एक अलग परियोजना जो विभिन्न व्यवसायों के लिए कंप्यूटर विज़न सेवाएं बेचती है। उदाहरण के लिए, उन्होंने एक हवाई अड्डे को कतारों से निपटने में मदद की। AWS एक गैस अन्वेषण कंपनी को श्रमिकों की सामाजिक दूरी की निगरानी करने और तेल रिसाव का पता लगाने में भी मदद करता है। फेंडर गिटार बजाना? AWS जानता है कि गिटार के निर्माण में कितना समय लगा। यह फेंडर को यह निगरानी करने में मदद करता है कि गिटार बनाने में कितना समय लगता है और कौन से विनिर्माण स्पॉट को अनुकूलित किया जा सकता है।

केवल Amazon के AI विजन के और भी कई उदाहरण हैं। अब, कल्पना करें कि एआई विज़न द्वारा हर दिन कितने कार्यों को हल किया जाता है, यह ध्यान में रखते हुए कि हर तकनीकी दिग्गज एआई के साथ काम करता है।

जॉन डीरे ट्रैक्टर

जॉन डीरे कंबाइन लगभग 200 वर्षों से खेतों की देखभाल कर रहे हैं। कंपनी एक टेक दिग्गज की गति से एआई प्रौद्योगिकियों को धीरे-धीरे लागू कर रही है। 2020 में, जॉन डीरे डेवलपर्स ने अर्ध-स्वायत्त ट्रैक्टर की एक अवधारणा जारी की, जो फसलों के बीच इष्टतम मार्ग ढूंढ सकती है, फसल की गुणवत्ता का विश्लेषण कर सकती है, जड़ी-बूटियों का सटीक रूप से छिड़काव कर सकती है, और अपने आप ही मातम को हटा सकती है। इन सभी सुविधाओं को कंप्यूटर विज़न के साथ बनाया गया था।

फसलों का विश्लेषण करने और जड़ी-बूटियों का छिड़काव करने के लिए, हमें ट्रैक्टर की आवश्यकता नहीं है। ड्रोन भी ऐसा कर सकते हैं। ड्रोन का उपयोग हमें सटीक कृषि के लिए प्रेरित करता है और खाद्य हानि की समस्या को हल करता है। कटाई के दौरान सालाना लगभग 15% भोजन नष्ट हो जाता है और ड्रोन इस संख्या को कम कर सकते हैं।

कंप्यूटर विजन मानवता को भूख से निपटने में मदद कर सकता है। कृषि में, विजन एआई फसल के नुकसान को कम करने के तरीके पर समाधान प्रदान करता है। इस प्रकार, अनुमानित 10 अरब आबादी को कम आपूर्ति जोखिम का सामना करना पड़ सकता है। इसके अलावा, अगर एआई लोगों की तुलना में अधिक सटीक रूप से फैलता है, तो हमें कम जड़ी-बूटियों की आवश्यकता होगी। यह अतिरिक्त शाकनाशियों के साथ पारिस्थितिक समस्या को हल कर सकता है।

Apple का चेहरा पहचान

यह वह चीज है जिसका इस्तेमाल हम रोजाना नहीं बल्कि हर घंटे करते हैं। IOS 10 से शुरू होकर, नए iPhone मॉडल फेस डिटेक्शन एल्गोरिदम के आधार पर फेसआईडी द्वारा अनब्लॉक किए गए हैं। iPhone कैमरे वास्तविक समय में किसी चेहरे को ट्रैक करते हैं और यदि चेहरा फ़ोन के स्वामी का है तो प्राधिकरण की अनुमति देता है। IOS में, फेस रिकग्निशन का इस्तेमाल न केवल स्क्रीन को अनब्लॉक करने के लिए बल्कि तस्वीरों में लोगों को पहचानने के लिए भी किया जाता है। इस मामले में, गहन शिक्षण तकनीक वाले चेहरों का पता लगाने के लिए फ़ोटो को क्लाउड सर्वर पर भेजा जाता है।

फेसबुक ने भी यही किया। 2021 तक। कमजोर कानून विनियमन और सामाजिक चिंताओं के कारण फेसबुक ने चेहरा पहचानना बंद कर दिया । यह विकल्प केवल चेहरे की पहचान तक ही सीमित नहीं था: एक स्वचालित वैकल्पिक पाठ प्रणाली भी नेत्रहीन लोगों के लिए छवि विवरण उत्पन्न करती है। इस प्रणाली ने चेहरा पहचान का उपयोग यह बताने के लिए किया कि छवि में कोई व्यक्ति या मित्र थे या नहीं। लोग इस मुद्दे पर चर्चा करना जारी रखते हैं क्योंकि यह वह जगह है जहाँ AI समाज को लाभान्वित करता है। मस्ती के बारे में क्या?

क्या आपने किसी ऐप में अपने दोस्त के चेहरे से अपना चेहरा बदलने की कोशिश की? या क्या आपने पहले ही देखा है कि आप अपने बुढ़ापे में कैसे दिखेंगे? फिर आपने यथार्थवादी चेहरे में हेरफेर की कोशिश की है। इस AI विज़न तकनीक का उपयोग न केवल उपयोगकर्ताओं का मनोरंजन करने के लिए बल्कि डीपफेक बनाने के लिए भी किया जाता है। यह वह जगह है जहां कंप्यूटर दृष्टि खतरनाक हो जाती है क्योंकि समाज में हेरफेर करने के लिए डीपफेक का इस्तेमाल किया जा सकता है।

यह पहले से ही रूसियों के साथ यूक्रेनी राष्ट्रपति के गहरे नकली वीडियो को देखने के साथ किया गया है, जहां उन्होंने कहा कि वह युद्ध का सामना नहीं करते थे और यूक्रेन को आत्मसमर्पण करने के लिए तैयार थे, जो एक झूठ था।

चेहरे की पहचान ने वास्तव में कौन से अच्छे काम किए हैं? सार्वजनिक कैमरों में अपराधियों का पता लगाने के अलावा, दृष्टि एआई लापता बच्चों को ढूंढ सकता है। नई देहली पुलिस ने केवल चार दिनों में 45,000 लापता बच्चों में से लगभग 3,000 का पता लगाया, जो कि ट्रैकचाइल्ड डेटाबेस पर लागू चेहरे की पहचान के लिए धन्यवाद। कंप्यूटर दृष्टि हमारे समाज को कैसे लाभ पहुंचाती है इसका एक और उदाहरण।

आज कंप्यूटर विज़न के लिए बहुत अधिक काम है। एआई उदाहरण सैकड़ों बिंदुओं की सूची बना सकते हैं। कुछ और हैं:

खेल प्रसारण : ट्रैकिंग बॉल, पक; खिलाड़ियों के प्रदर्शन की भविष्यवाणी करना।
हेल्थकेयर : ट्यूमर का पता लगाना, एक मरीज की रिमोट मॉनिटरिंग, मेडिकल इमेजिंग।
सेल्फ-ड्राइविंग कारें : केवल टेस्ला और गूगल की वायमो ही नहीं हैं। सड़कों पर पहले से ही कई अन्य अर्ध-स्वायत्त कारें हैं।
अनुवाद करना : अपना Google अनुवाद ऐप खोलें और विज़ुअल रीयल-टाइम अनुवाद का उपयोग करने का प्रयास करें।
फोटो संग्रह : न्यूयॉर्क टाइम्स गूगल के साथ सहयोग करता है और अभिलेखागार से लाखों तस्वीरों को डिजिटाइज करने के लिए अपनी विज़न एपीआई तकनीक का उपयोग करता है।
खेती और वन्य जीवन : राष्ट्रीय उद्यानों या खेतों में जानवरों का पता लगाना और उन पर नज़र रखना; संक्रमण के लक्षणों का पता लगाना ।

हेल्थकेयर की बात करें तो सीएनएन और डीप लर्निंग से डॉक्टरों को कोविड का पता लगाने में मदद मिलती है। छाती के एक्स-रे छवियों का उपयोग करते हुए, कोविद-नेट टीम का एप्लिकेशन - डार्विनएआई - 92% से अधिक सटीकता के साथ बीमारी की भविष्यवाणी करता है। अपने ओपन-सोर्स डेटाबेस के कारण, सॉफ़्टवेयर में सीखने के लिए बहुत सारी सामग्रियां हैं।

एक "किशोर" के लिए बुरा नहीं है जो मानवता को खुदरा, कृषि, सोशल नेटवर्किंग और स्वास्थ्य सेवा में समस्याओं को हल करने में मदद करता है। हो सकता है कि AI किसी बड़े की बुद्धि की संभावनाओं तक पहुँच गया हो। एआई विजन सचमुच हर जीवन क्षेत्र में आ गया। हालाँकि, कुछ ऐसा है जिससे AI "बहुत छोटा" है या इससे निपटने के लिए तैयार नहीं है।

कंप्यूटर विजन क्या सक्षम नहीं है

मुख्य सीमा एआई के बारे में कुछ नहीं जानने के बारे में नहीं है: यह एक अच्छी गहरी शिक्षा "छात्र" है। समस्या यह है कि हार्डवेयर अक्सर AI विज़न क्षमता को सीमित कर देता है।

मशीन लर्निंग के लिए उच्च-कुशल प्रोसेसर की आवश्यकता होती है: सीपीयू और जीपीयू को उच्च-गुणवत्ता वाली छवियों या वीडियो को प्रस्तुत करना होता है। सीपीयू क्षमताएं अक्सर कम्प्यूटेशनल रूप से गहन कार्यों के लिए पर्याप्त नहीं होती हैं जबकि जीपीयू एआई दृष्टि गणना में तेजी लाने में मदद करता है । इस प्रकार, GPU कंप्यूटर विज़न के अलावा अन्य कार्यों के लिए CPU को मुक्त करता है।

कुशल कंप्यूटर के अलावा, कंप्यूटर विज़न को एज डिवाइस की आवश्यकता होती है। वे वास्तविक समय में डेटा एकत्र करने के लिए कैमरों से जुड़ जाते हैं, इस प्रकार बादलों में डेटा को संसाधित करने के लिए समय की बचत करते हैं। एज डिवाइस डेटा को स्थानीय रूप से संसाधित करते हैं, और परिणामस्वरूप, रीयल-टाइम डेटा में विलंबता संबंधी कोई समस्या नहीं होती है। डेटा को स्थानीय रूप से संसाधित करके, व्यवसाय स्थानीय रूप से डेटा प्रोसेसिंग करवाकर पैसे बचा सकते हैं।

एज डिवाइस प्राप्त करना कोई समस्या नहीं है, लेकिन इसे कंप्यूटर विज़न के लिए "उपभोक्ता टोकरी" में जोड़ा जाता है, और कीमत अधिक हो जाती है। यह अनुमान लगाना कठिन है कि AI विज़न के लिए एक आदर्श कंप्यूटर की लागत कितनी होगी। आकाश की सीमा है। एक सामान्य लैपटॉप पर केवल साधारण AI विज़न कार्य ही चलाए जा सकते हैं।

उदाहरण के लिए, AI12 लैब शोधकर्ताओं ने गणना की कि यदि Google के NoisyStudent गहन शिक्षण कार्य क्लाउड जैसे Amazon के AWS में चलेंगे, तो इसकी लागत कितनी होगी। यह देखते हुए कि NoisyStudent सीएनएन पर काम करता है और इसमें 480 मिलियन पैरामीटर शामिल हैं, कीमत $ 10K - $ 200K (केवल 340 मिलियन मापदंडों के लिए) तक पहुंच जाएगी।

यदि मशीन और कंप्यूटर AI को मिलाते हैं, तो उच्च रिज़ॉल्यूशन वाला कैमरा होना चाहिए। यदि लक्ष्य किसी वस्तु को ट्रैक करना है, तो मशीन को उच्च परिभाषा धाराओं को रिकॉर्ड करने में सक्षम कैमरे की आवश्यकता होती है। इसे भी कीमत में जोड़ें।

हार्डवेयर के अलावा, एक और सीमा उच्च गुणवत्ता वाले डेटा की कमी है। वस्तुओं को पहचानने के लिए एआई को सिखाने के लिए, इसे उच्च-रिज़ॉल्यूशन छवियों के साथ लेबल किए गए डेटा पर प्रशिक्षित करना होगा। कम गुणवत्ता वाले एक्स-रे के समूह से निपटने के लिए, एआई विजन के लिए बीमारी की भविष्यवाणी करना मुश्किल है। इसके अलावा, अक्सर पर्याप्त डेटा नहीं होता है। महामारी के दौरान लगातार नए स्कैन भरने के कारण कोविड-नेट सफल रहा। गोपनीयता के मुद्दों के कारण अन्य प्रोजेक्ट विफल हो सकते हैं जो डेटा संचय को सीमित करते हैं।

यहां, एआई विजन एक और समस्या से संबंधित है - नैतिकता और कानून विनियमन। कई अमेरिकी राज्यों ने पहले ही पुलिस बॉडी कैमरों में चेहरे की पहचान प्रणाली पर प्रतिबंध लगा दिया है। यह देखते हुए कि एआई एक अपराधी या लापता बच्चे को ढूंढ सकता है, ऐसा लगता है कि यह एक कमजोर कानून विनियमन की समस्या है जो अभी भी बहुत अस्पष्ट है।

नस्लीय और लैंगिक पूर्वाग्रह एआई विजन तक भी पहुंचे । ज्यादातर मामलों में, एआई को महिलाओं और गहरे रंग की त्वचा वाले लोगों की कुछ छवियों वाले डेटासेट पर प्रशिक्षित किया जाता है। समस्या यह है कि यह वास्तव में गलत पहचान की ओर ले जाता है - यह केवल एक नैतिक मुद्दा नहीं है।

अपने रास्ते पर, एआई विजन को कई नैतिक समस्याओं का सामना करना पड़ेगा और समाज के भरोसे को चुनौती दी जाएगी। नैतिकता, हार्डवेयर और खराब गुणवत्ता वाले डेटा एआई को चुनौती देते हैं। हालाँकि, मुख्य मुद्दा यह है कि AI को अभी भी मानव की आवश्यकता है। इसे अभी भी मैन्युअल रूप से लेबल किए गए डेटा की आवश्यकता है।

हालाँकि, यह समय की बात है जब AI समस्याओं को अधिक स्वायत्तता से हल करेगा। कंप्यूटर विज़न अब तकनीकी "बच्चा" नहीं है। ऐसा लगता है कि यह बड़ा हो गया है और हमें पहले से ही इस पर गर्व हो सकता है। यह इसकी मुख्य उपलब्धियों को याद करने का समय है।

निष्कर्ष निकालना: कंप्यूटर दृष्टि जिसके हम हकदार हैं

कंप्यूटर विज़न के बारे में बात करते समय मुख्य और सबसे महत्वपूर्ण बिंदु निम्नलिखित हैं:

मानव न्यूरोनल नेटवर्क के सिद्धांतों ने वैज्ञानिकों को कंप्यूटर दृष्टि प्रौद्योगिकियों को विकसित करने के लिए प्रेरित किया जो न्यूरोनल परत वास्तुकला के समान हैं।
1980 के दशक में, कंप्यूटर विज़न ने छवियों में वस्तुओं का पता लगाने और उन्हें ट्रैक करने के लिए जटिल कार्यों को हल करना शुरू किया।
जीवित चीजों के सिद्धांतों पर आधारित सीएनएन, और गहन शिक्षा मुख्य आधुनिक कंप्यूटर दृष्टि प्रौद्योगिकियां हैं।
आज, स्वास्थ्य देखभाल, खुदरा, यातायात, खेल, कृषि, सामाजिक विज्ञान और स्मार्टफोन में कंप्यूटर दृष्टि का उपयोग किया जाता है। कई अन्य आकर्षक क्षेत्र हैं जहां एआई को कुछ वर्षों में लागू किया जाएगा।
हमें इस बात से सहमत होना चाहिए कि कंप्यूटर विज़न में किसी भी अन्य डिजिटल तकनीक की तरह गैर-नैतिक और जोखिम भरे अनुप्रयोग शामिल हैं। एआई विजन ने न केवल काम पर बल्कि दैनिक दिनचर्या में भी मानव जीवन को सरल बनाया है।
एक पेशेवर की तरह कंप्यूटर विज़न के बारे में बात करने के लिए, इसे पढ़ें या इसे देखें ।

एआई पर भरोसा करना है या अपने जीवन पर भरोसा करना (उदाहरण के लिए, एक स्वायत्त कार चलाते समय) आपकी व्यक्तिगत पसंद है। हालाँकि, आपको क्या स्वीकार करना चाहिए, इससे कोई फर्क नहीं पड़ता कि आप सभी हाई-टेक सामान के बारे में क्या सोचते हैं, यह है कि एआई आपको पहले से ही देख रहा है जब से आपने अपना ब्राउज़र खोला या अपना फोन अनब्लॉक किया। इसके अलावा, यह आपकी दिनचर्या के हर कदम पर आपको घेरता रहता है। तो सबसे अच्छी बात यह है कि कंप्यूटर विज़न कैसे विकसित किया जा रहा है और आप व्यक्तिगत या व्यावसायिक रूप से इसका किस तरह से लाभ उठा सकते हैं, इसके बारे में जागरूक और जानकार होना चाहिए।

मूल रूप से यहां प्रकाशित हुआ ।