AI, பகுப்பாய்வு அல்லது தரவு அறிவியலில் உள்ள எவரிடமும் பேசுங்கள், அவர்கள் செயற்கை தரவுதான் எதிர்காலம் என்று உங்களுக்குச் சொல்வார்கள். ஆனால் "செயற்கை தரவு" என்றால் என்ன என்று அவர்களிடம் கேட்டால், உங்களுக்கு மிகவும் மாறுபட்ட பதில்கள் கிடைக்கும். ஏனென்றால் செயற்கை தரவு என்பது ஒரு விஷயம் மட்டுமல்ல - இது பல பயன்பாட்டு நிகழ்வுகள் மற்றும் வரையறைகளைக் கொண்ட ஒரு பரந்த வகையாகும். மேலும் அந்த தெளிவின்மை உரையாடல்களை குழப்பமடையச் செய்கிறது. எனவே, சத்தத்தைக் குறைப்போம். அதன் மையத்தில், செயற்கைத் தரவு இரண்டு முக்கிய பரிமாணங்களில் செயல்படுகிறது. முதலாவது, ஏற்கனவே உள்ள தரவுத்தொகுப்பில் காணாமல் போன தரவை நிரப்புவது முதல் முற்றிலும் புதிய தரவுத்தொகுப்புகளை உருவாக்குவது வரையிலான ஒரு நிறமாலையாகும். இரண்டாவது, மூல தரவு மட்டத்தில் தலையீடுகள் மற்றும் நுண்ணறிவு அல்லது விளைவு மட்டத்தில் தலையீடுகளை வேறுபடுத்துகிறது. இந்த பரிமாணங்களை ஒரு விளக்கப்படத்தில் அச்சுகளாக கற்பனை செய்து பாருங்கள். இது நான்கு கால் பகுதிகளை உருவாக்குகிறது, ஒவ்வொன்றும் வெவ்வேறு வகையான செயற்கைத் தரவைக் குறிக்கின்றன: . ஒவ்வொன்றும் ஒரு தனித்துவமான செயல்பாட்டைச் செய்கின்றன, மேலும் நீங்கள் எந்தத் திறனிலும் தரவுகளுடன் பணிபுரிகிறீர்கள் என்றால், நீங்கள் வித்தியாசத்தை அறிந்து கொள்ள வேண்டும். தரவு கணக்கீடு, பயனர் உருவாக்கம், நுண்ணறிவு மாதிரியாக்கம் மற்றும் தயாரிக்கப்பட்ட விளைவுகள் தரவு கணக்கீடு: வெற்றிடங்களை நிரப்புதல் தரவு கணக்கீடு என்பது உண்மையிலேயே செயற்கை தரவு அல்ல என்று சிலர் வாதிடலாம், ஆனால் நவீன கணக்கீடு நுட்பங்கள் எளிய சராசரி அல்லது சராசரி மாற்றீட்டைத் தாண்டி உருவாகியுள்ளன. இன்று, மேம்பட்ட கணக்கீடு இயந்திர கற்றல் மற்றும் ஜெனரேட்டிவ் AI மாதிரிகளைப் பயன்படுத்துகிறது, இதனால் உருவாக்கப்பட்ட மதிப்புகள் முன்பை விட மிகவும் நுட்பமானதாகவும் சூழல் ரீதியாக பொருத்தமானதாகவும் ஆக்குகின்றன. தரவு imputation என்பது மற்றும் சந்திப்பில் அமர்ந்திருக்கிறது. இதன் பொருள் இடைவெளிகளைக் கொண்ட ஏற்கனவே உள்ள தரவுத்தொகுப்புகளுடன் நாங்கள் பணியாற்றி வருகிறோம், மேலும் அவற்றை முடிக்க நம்பத்தகுந்த மதிப்புகளை உருவாக்குவதே எங்கள் குறிக்கோள். மற்ற வகையான செயற்கை தரவுகளைப் போலல்லாமல், imputation என்பது முற்றிலும் புதிய தகவல்களை உருவாக்குவது பற்றியது அல்ல - இது முழுமையற்ற தரவை மேலும் பயன்படுத்தக்கூடியதாக மாற்றுவது பற்றியது. காணாமல் போன தரவு மூல தரவு தலையீட்டின் ஊடக செயல்திறன் ஆய்வுகளை நடத்தும் ஒரு சந்தை ஆராய்ச்சி நிறுவனம், கணக்கெடுப்பு பதில்கள் இல்லாததால் அதன் பார்வையாளர்களின் பதில் தரவுகளில் இடைவெளிகளைக் கொண்டிருக்கலாம். முழுமையற்ற தரவுத்தொகுப்புகளை நிராகரிப்பதற்குப் பதிலாக, புள்ளிவிவர மாதிரியாக்கம் அல்லது இயந்திர கற்றல் போன்ற குற்றச்சாட்டு நுட்பங்கள் யதார்த்தமான மதிப்பீடுகளை உருவாக்க முடியும், இதனால் ஆய்வாளர்கள் தரவிலிருந்து அர்த்தமுள்ள நுண்ணறிவுகளைப் பெற முடியும் என்பதை உறுதி செய்கிறது. எடுத்துக்காட்டு: பயனர் உருவாக்கம்: போலி நபர்கள், உண்மையான நுண்ணறிவுகள் பயனர் உருவாக்கம் என்பது மற்றும் இடையில் உள்ளது. ஏற்கனவே உள்ள தரவை மாற்றுவதற்கு பதிலாக, இந்த அணுகுமுறை முற்றிலும் புதிய பயனர் சுயவிவரங்கள் மற்றும் நடத்தைகளை உருவாக்குகிறது. உண்மையான பயனர் தரவு கிடைக்காதபோது, உணர்திறன் மிக்கதாக இருக்கும்போது அல்லது செயற்கையாக அளவிட வேண்டியிருக்கும் போது இது மிகவும் பயனுள்ளதாக இருக்கும். புதிய தரவு உருவாக்கம் மூல தரவு தலையீட்டிற்கு தயாரிப்புகளைச் சோதித்தல், பாதுகாப்பை மேம்படுத்துதல் மற்றும் AI மாதிரிகளைப் பயிற்றுவித்தல் ஆகியவற்றில் பயனர் உருவாக்கம் ஒரு பெரிய மாற்றமாகும். ஒரு ஸ்ட்ரீமிங் சேவை உண்மையான வாடிக்கையாளர் தரவை வெளிப்படுத்தாமல் அதன் பரிந்துரை இயந்திரத்தை சோதிக்க செயற்கை பயனர் சுயவிவரங்களை உருவாக்கக்கூடும். சைபர் பாதுகாப்பு நிறுவனங்களும் தாக்குதல் சூழ்நிலைகளை உருவகப்படுத்தவும், மோசடி கண்டறிதல் அமைப்புகளுக்கு பயிற்சி அளிக்கவும் இதையே செய்கின்றன. உதாரணம்: நுண்ணறிவு மாதிரியாக்கம்: தனியுரிமை அபாயங்கள் இல்லாத வடிவங்கள் நுண்ணறிவு மாதிரியாக்கம், மற்றும் சந்திப்பில் செயல்படுகிறது. மூல தரவு புள்ளிகளைக் கையாளுவதற்குப் பதிலாக, உண்மையான பதிவுகளை வெளிப்படுத்தாமல் நிஜ உலகத் தரவின் புள்ளிவிவர பண்புகளைப் பாதுகாக்கும் தரவுத்தொகுப்புகளை இது உருவாக்குகிறது. இது தனியுரிமை உணர்திறன் பயன்பாடுகளுக்கு ஏற்றதாக அமைகிறது. ஏற்கனவே உள்ள தரவு நுண்ணறிவு மட்டத்தில் தலையீட்டின் நுண்ணறிவு மாதிரியாக்கம், ஆராய்ச்சியாளர்கள் ஏற்கனவே உள்ள தரவுத்தொகுப்புகளிலிருந்து நுண்ணறிவுகளை அளவிட அனுமதிக்கிறது, குறிப்பாக பெரிய அளவிலான தரவைச் சேகரிப்பது நடைமுறைக்கு மாறானதாக இருக்கும்போது. இது சந்தைப்படுத்தல் ஆராய்ச்சியில் பொதுவானது, அங்கு தரவு சேகரிப்பு சிக்கலானதாகவும் விலை உயர்ந்ததாகவும் இருக்கும். இருப்பினும், இந்த அணுகுமுறைக்கு நிஜ உலக பயிற்சி தரவின் உறுதியான அடித்தளம் தேவைப்படுகிறது. நகல் சோதனையை நடத்தும் ஒரு சந்தை ஆராய்ச்சி நிறுவனம், அதன் நெறிமுறை தரவுத்தளத்தை அளவிட நுண்ணறிவு மாதிரியைப் பயன்படுத்தலாம். சேகரிக்கப்பட்ட கணக்கெடுப்பு பதில்களை மட்டுமே நம்புவதற்குப் பதிலாக, நிறுவனம் ஏற்கனவே உள்ள நெறிமுறைத் தரவிலிருந்து வடிவங்களை விரிவுபடுத்தும் செயற்கை நுண்ணறிவு மாதிரிகளை உருவாக்க முடியும். இது புதிய கணக்கெடுப்பு பதில்களைத் தொடர்ந்து சேகரிக்காமல், பரந்த, அதிக முன்கணிப்பு தரவுத்தொகுப்புக்கு எதிராக ஆக்கப்பூர்வமான செயல்திறனை சோதிக்க பிராண்டுகளை அனுமதிக்கிறது. எடுத்துக்காட்டு: தயாரிக்கப்பட்ட விளைவுகள்: தரவு இன்னும் இல்லாதபோது மற்றும் ஆகிய இரண்டின் தீவிர முடிவில் உற்பத்தி செய்யப்பட்ட முடிவுகள் அமர்ந்துள்ளன. இந்த அணுகுமுறை, AI பயிற்சி, மாடலிங் மற்றும் உருவகப்படுத்துதல்களுக்கு அவசியமான சூழல்கள் அல்லது காட்சிகளை உருவகப்படுத்துவதற்கு புதிதாக முற்றிலும் புதிய தரவுத்தொகுப்புகளை உருவாக்குவதை உள்ளடக்கியது. புதிய தரவு உருவாக்கம் நுண்ணறிவு-நிலை தலையீடு சில நேரங்களில், உங்களுக்குத் தேவையான தரவு வெறுமனே இருக்காது - அல்லது நிஜ உலகில் சேகரிக்க மிகவும் விலை உயர்ந்ததாகவோ அல்லது ஆபத்தானதாகவோ இருக்கும். அங்குதான் தயாரிக்கப்பட்ட முடிவுகள் வருகின்றன. இந்த செயல்முறை முற்றிலும் புதிய தரவுத்தொகுப்புகளை உருவாக்குகிறது, பெரும்பாலும் நகலெடுக்க கடினமாக இருக்கும் சூழல்களில் AI அமைப்புகளுக்கு பயிற்சி அளிக்க. சுய-ஓட்டுநர் கார் நிறுவனங்கள், நிஜ உலக ஓட்டுநர் காட்சிகளில் அடிக்கடி தோன்றாத அரிதான ஆனால் முக்கியமான சூழ்நிலைகளில் தங்கள் AI-யைப் பயிற்றுவிக்க, ஒரு பாதசாரி திடீரென ஜெய்வாக்கிங் செய்வது போன்ற செயற்கை சாலை காட்சிகளை உருவாக்குகின்றன. உதாரணம்: செயற்கை தரவுகளின் அபாயங்கள் மற்றும் பரிசீலனைகள் செயற்கைத் தரவு சக்திவாய்ந்த தீர்வுகளை வழங்கினாலும், அது ஆபத்துகள் இல்லாமல் இல்லை. ஒவ்வொரு வகையான செயற்கைத் தரவும் தரவு தரம், நம்பகத்தன்மை மற்றும் நெறிமுறை பயன்பாட்டை பாதிக்கக்கூடிய அதன் சொந்த சவால்களைக் கொண்டுள்ளது. மனதில் கொள்ள வேண்டிய சில முக்கிய கவலைகள் இங்கே: கணக்கீடு, நுண்ணறிவு மாதிரியாக்கம் அல்லது தயாரிக்கப்பட்ட விளைவுகளுக்குப் பயன்படுத்தப்படும் அடிப்படைத் தரவு சார்புகளைக் கொண்டிருந்தால், அந்த சார்புகளை வலுப்படுத்தலாம் அல்லது பெருக்கலாம். சார்பு பரப்புதல்: பயனர் உருவாக்கம் மற்றும் தரவு உற்பத்தி யதார்த்தமாகத் தோன்றும் தரவை உருவாக்கக்கூடும், ஆனால் உண்மையான பயனர் நடத்தை அல்லது சந்தை நிலைமைகளின் நுணுக்கங்களைப் பிடிக்கத் தவறிவிடும். நிஜ உலக பிரதிநிதித்துவமின்மை: நுண்ணறிவு மாதிரியாக்கம், முறையற்ற முறையில் பயன்படுத்தப்படும்போது, பயிற்சித் தொகுப்புடன் மிக நெருக்கமாக ஒத்துப்போகும் தரவை உருவாக்கி, தவறான முடிவுகளுக்கு வழிவகுக்கும். அதிகப்படியான பொருத்தம் மற்றும் தவறான நம்பிக்கை: உண்மையான நபர்களை அடையாளம் காண செயற்கைத் தரவுகளை தலைகீழ் பொறியியலில் உருவாக்க முடிந்தால், GDPR மற்றும் CCPA போன்ற தனியுரிமைச் சட்டங்கள் இன்னும் அதற்குப் பொருந்தும். ஒழுங்குமுறை மற்றும் நெறிமுறை கவலைகள்: செயற்கைத் தரவை மதிப்பிடும்போது கேட்க வேண்டிய முக்கிய கேள்விகள் செயற்கைத் தரவு தரத் தரங்களைப் பூர்த்தி செய்வதை உறுதிசெய்ய, இந்தக் கேள்விகளைக் கவனியுங்கள்: செயற்கைத் தரவின் அடித்தளத்தைப் புரிந்துகொள்வது சாத்தியமான சார்புகளையும் வரம்புகளையும் மதிப்பிட உதவுகிறது. அசல் தரவின் மூலம் என்ன? வெவ்வேறு முறைகள் - இயந்திர கற்றல், புள்ளிவிவர மாதிரிகள் அல்லது விதி அடிப்படையிலான அமைப்புகள் - செயற்கை தரவின் நம்பகத்தன்மையை பாதிக்கின்றன. செயற்கை தரவு எவ்வாறு உருவாக்கப்பட்டது? உருவாக்கப்பட்ட தரவு வெறும் நகலெடுக்காமல் உண்மையான தரவைப் போலவே செயல்படுவதை உறுதிசெய்யவும். செயற்கைத் தரவு நிஜ உலகத் தரவின் புள்ளிவிவர ஒருமைப்பாட்டைப் பராமரிக்கிறதா? நம்பகமான செயற்கைத் தரவு சரிபார்ப்பு வழிமுறைகளைக் கொண்டிருக்க வேண்டும். செயற்கைத் தரவை தணிக்கை செய்யவோ அல்லது சரிபார்க்கவோ முடியுமா? தரவு செயற்கையாக இருப்பதால் அது தனியுரிமை விதிமுறைகளிலிருந்து விலக்கு அளிக்கப்படுகிறது என்று அர்த்தமல்ல. இது ஒழுங்குமுறை மற்றும் நெறிமுறை வழிகாட்டுதல்களுக்கு இணங்குகிறதா? செயற்கைத் தரவு, அது அடிப்படையாகக் கொண்ட நிஜ உலகத் தரவைப் போலவே சிறந்தது. அடிப்படை தரவுத்தொகுப்பைத் தொடர்ந்து புதுப்பிப்பதற்கான செயல்முறையை உறுதி செய்வது, மாதிரிகள் காலாவதியாகி, தற்போதைய போக்குகளுடன் தவறாக இணைக்கப்படுவதைத் தடுக்கிறது. அடிப்படை தரவு மாதிரிகளைப் புதுப்பிக்க ஒரு செயல்முறை உள்ளதா? அதை மூடுதல் செயற்கைத் தரவு என்பது ஒரு பரந்த சொல், நீங்கள் AI, பகுப்பாய்வு அல்லது ஏதேனும் தரவு சார்ந்த துறையில் பணிபுரிகிறீர்கள் என்றால், நீங்கள் எந்த வகையான தரவைக் கையாளுகிறீர்கள் என்பது குறித்து தெளிவாக இருக்க வேண்டும். காணாமல் போன தரவை நிரப்புகிறீர்களா (கணிப்பு), சோதனை பயனர்களை உருவாக்குகிறீர்களா (பயனர் உருவாக்கம்), அநாமதேய வடிவங்களை உருவாக்குகிறீர்களா (நுண்ணறிவு மாதிரியாக்கம்), அல்லது புதிதாக புதிதாக தரவுத்தொகுப்புகளை உருவாக்குகிறீர்களா (உற்பத்தி செய்யப்பட்ட முடிவுகள்)? இவை ஒவ்வொன்றும் நாம் தரவை எவ்வாறு பயன்படுத்துகிறோம் மற்றும் பாதுகாக்கிறோம் என்பதில் வெவ்வேறு பங்கை வகிக்கின்றன, மேலும் அவற்றைப் புரிந்துகொள்வது AI மற்றும் தரவு அறிவியலின் வேகமாக வளர்ந்து வரும் உலகில் தகவலறிந்த முடிவுகளை எடுப்பதற்கு முக்கியமாகும். எனவே அடுத்த முறை யாராவது "செயற்கை தரவு" என்ற வார்த்தையைச் சுற்றி வரும்போது, அவர்களிடம் கேளுங்கள்: எந்த வகை?