Pasikalbėkite su bet kuo, kas dirba dirbtinio intelekto, analizės ar duomenų mokslo srityje, ir jie jums pasakys, kad sintetiniai duomenys yra ateitis. Tačiau paklauskite jų, ką jie reiškia „sintetiniais duomenimis“, ir gausite labai skirtingus atsakymus. Taip yra todėl, kad sintetiniai duomenys nėra tik vienas dalykas – tai plati kategorija su daugybe naudojimo atvejų ir apibrėžimų. Ir tas dviprasmiškumas pokalbius painioja. Taigi, pašalinkime triukšmą. Iš esmės sintetiniai duomenys veikia dviem pagrindiniais aspektais. Pirmasis yra spektras nuo trūkstamų duomenų užpildymo esamame duomenų rinkinyje iki visiškai naujų duomenų rinkinių generavimo. Antrasis išskiria intervencijas neapdorotų duomenų lygmeniu ir intervencijas įžvalgų ar rezultatų lygmeniu. Įsivaizduokite šiuos matmenis kaip diagramos ašis. Taip sukuriami keturi kvadrantai, kurių kiekvienas atspindi skirtingą sintetinių duomenų tipą: . Kiekvienas iš jų atlieka atskirą funkciją, o jei dirbate su bet kokiais duomenimis, turite žinoti skirtumą. duomenų priskyrimą, naudotojo kūrimą, įžvalgų modeliavimą ir pagamintus rezultatus Duomenų priskyrimas: užpildykite tuščius laukus Nors kai kurie gali ginčytis, kad duomenų priskyrimas nėra iš tikrųjų sintetiniai duomenys, šiuolaikiniai priskyrimo metodai išsivystė daugiau nei paprastas vidurkis arba mediana. Šiandien pažangus priskyrimas naudoja mašininį mokymąsi ir generuojamuosius AI modelius, todėl sukurtos vertės yra sudėtingesnės ir labiau atitinka kontekstą nei bet kada anksčiau. Duomenų priskyrimas yra ir sankirtoje. Tai reiškia, kad dirbame su esamais duomenų rinkiniais, kuriuose yra spragų, ir mūsų tikslas yra sukurti patikimas vertes, kad jas užpildytume. Skirtingai nuo kitų tipų sintetinių duomenų, imputacija nėra skirta visiškai naujos informacijos kūrimui, o tai, kad nepilnus duomenis būtų lengviau naudoti. trūkstamų duomenų neapdorotų duomenų intervencijos rinkos tyrimų įmonė, atliekanti žiniasklaidos efektyvumo tyrimus, gali turėti spragų auditorijos atsakymų duomenims dėl trūkstamų apklausos atsakymų. Užuot atmetę neišsamius duomenų rinkinius, imputacijos metodai, tokie kaip statistinis modeliavimas ar mašininis mokymasis, gali generuoti realistiškus įvertinimus, užtikrinant, kad analitikai vis tiek galėtų gauti reikšmingų įžvalgų iš duomenų. Pavyzdys: Vartotojo kūrimas: netikri žmonės, tikros įžvalgos Vartotojo kūrimas yra tarp ir . Užuot modifikavus esamus duomenis, šis metodas sukuria visiškai naujus vartotojų profilius ir elgseną. Tai ypač naudinga, kai nepasiekiami tikri naudotojo duomenys, jie yra jautrūs arba juos reikia dirbtinai pakeisti. naujų duomenų generavimo neapdorotų duomenų intervencijos Vartotojų kūrimas yra žaidimų keitiklis, skirtas produktų testavimui, saugumo gerinimui ir AI modelių mokymui. srautinio perdavimo paslauga gali sukurti sintetinius vartotojo profilius, kad išbandytų savo rekomendacijų variklį, neatskleisdama tikrų klientų duomenų. Kibernetinio saugumo įmonės daro tą patį, kad imituotų atakų scenarijus ir mokytų sukčiavimo aptikimo sistemas. Pavyzdys: Įžvalgų modeliavimas: modeliai be privatumo rizikos Įžvalgų modeliavimas veikia ir sankirtoje. Užuot manipuliavęs neapdorotų duomenų taškais, jis sukuria duomenų rinkinius, kurie išsaugo statistines realaus pasaulio duomenų savybes, neatskleidžiant faktinių įrašų. Dėl to jis idealiai tinka privatumui jautrioms programoms. esamų duomenų intervencijos įžvalgų lygiu Įžvalgų modeliavimas taip pat leidžia tyrėjams išplėsti įžvalgas iš jau esamų duomenų rinkinių, ypač kai didelio masto duomenų rinkimas yra nepraktiškas. Tai įprasta rinkodaros tyrimuose, kur duomenų rinkimas gali būti sudėtingas ir brangus. Tačiau šis metodas reikalauja tvirto realaus pasaulio mokymo duomenų pagrindo. rinkos tyrimų įmonė, atliekanti kopijų testavimą, gali naudoti įžvalgų modeliavimą, kad padidintų savo normatyvinę duomenų bazę. Užuot pasikliaudama vien surinktais apklausos atsakymais, įmonė gali sukurti sintetinius įžvalgų modelius, kurie ekstrapoliuoja modelius iš esamų norminių duomenų. Tai leidžia prekių ženklams išbandyti kūrybinį našumą, palyginti su platesniu, labiau nuspėjamu duomenų rinkiniu, nuolat nerenkant naujų apklausos atsakymų. Pavyzdys: Gamybos rezultatai: kai duomenų dar nėra Gaminami rezultatai yra tiek , tiek pabaigoje. Šis metodas apima visiškai naujų duomenų rinkinių generavimą nuo nulio, kad būtų galima imituoti aplinkas ar scenarijus, kurie dar neegzistuoja, bet yra būtini AI mokymui, modeliavimui ir modeliavimui. naujų duomenų generavimo įžvalgų lygio intervencijos Kartais jums reikalingų duomenų tiesiog nėra arba jie yra per brangūs arba pavojingi, kad juos būtų galima rinkti realiame pasaulyje. Čia atsiranda gamybos rezultatai. Šis procesas generuoja visiškai naujus duomenų rinkinius, dažnai lavinančias AI sistemas aplinkoje, kurią sunku pakartoti. savarankiškai vairuojančių automobilių įmonės sukuria sintetinius kelių scenarijus, pavyzdžiui, staiga vaikščiojantis pėsčiasis, kad mokytų savo dirbtinį intelektą retų, bet kritinių situacijų, kurios gali nepasirodyti realiame vairavimo filmuotoje medžiagoje. Pavyzdys: Sintetinių duomenų rizika ir svarstymai Nors sintetiniai duomenys yra galingi sprendimai, jie nekelia pavojaus. Kiekvienas sintetinių duomenų tipas turi savo iššūkių, kurie gali turėti įtakos duomenų kokybei, patikimumui ir etiškam naudojimui. Štai keletas pagrindinių rūpesčių, kuriuos reikia nepamiršti: jei pagrindiniai duomenys, naudojami imputacijai, įžvalgų modeliavimui arba pagamintiems rezultatams, yra paklaidų, šie paklaidai gali būti sustiprinti ar net sustiprinti. Poslinkio plitimas: naudotojų kūrimas ir duomenų kūrimas gali generuoti duomenis, kurie atrodo realistiški, tačiau neatspindi tikrojo vartotojo elgesio ar rinkos sąlygų niuansų. Trūksta reprezentatyvumo realiame pasaulyje: netinkamai pritaikytas įžvalgų modeliavimas gali sukurti duomenis, kurie per daug sutampa su mokymo rinkiniu, todėl daromos klaidinančios išvados. Per didelis pritaikymas ir klaidingas pasitikėjimas: Privatumo įstatymai, pvz., BDAR ir CCPA, vis dar taikomi sintetiniams duomenims, jei juos galima pakeisti, kad būtų galima identifikuoti tikrus asmenis. Reguliavimo ir etikos problemos: Pagrindiniai klausimai, kuriuos reikia užduoti vertinant sintetinius duomenis Norėdami užtikrinti, kad sintetiniai duomenys atitiktų kokybės standartus, apsvarstykite šiuos klausimus: Sintetinių duomenų pagrindo supratimas padeda įvertinti galimus šališkumus ir apribojimus. Kas yra pirminių duomenų šaltinis? Įvairūs metodai – mašininis mokymasis, statistiniai modeliai ar taisyklėmis pagrįstos sistemos – turi įtakos sintetinių duomenų patikimumui. Kaip buvo generuojami sintetiniai duomenys? Užtikrinkite, kad sugeneruoti duomenys veiktų panašiai kaip tikrieji duomenys, tik jų nedubliuodami. Ar sintetiniai duomenys išlaiko statistinį realaus pasaulio duomenų vientisumą? Patikimiems sintetiniams duomenims turi būti taikomi patvirtinimo mechanizmai. Ar sintetiniai duomenys gali būti audituojami arba patvirtinami? Tai, kad duomenys yra sintetiniai, nereiškia, kad jiems netaikomi privatumo reglamentai. Ar jis atitinka reguliavimo ir etikos gaires? Sintetiniai duomenys yra tokie pat geri, kaip ir realaus pasaulio duomenys, kuriais jie pagrįsti. Užtikrinant nuolatinio pagrindinių duomenų rinkinio atnaujinimo procesą, modeliai nepasensta ir nesutampa su dabartinėmis tendencijomis. Ar yra procesas, skirtas atnaujinti pagrindinius duomenų modelius? Apvyniojimas Sintetiniai duomenys yra plati sąvoka, o jei dirbate dirbtinio intelekto, analizės ar bet kurioje duomenimis pagrįstoje sferoje, turite aiškiai suprasti, su kuo susiduriate. Ar pildote trūkstamus duomenis (įskaitymas), kuriate bandomuosius vartotojus (vartotojo kūrimas), kuriate anoniminius modelius (įžvalgų modeliavimas) ar kuriate visiškai naujus duomenų rinkinius nuo nulio (pagaminti rezultatai)? Kiekvienas iš jų atlieka skirtingą vaidmenį, kaip naudojame ir saugome duomenis, o jų supratimas yra labai svarbus norint priimti pagrįstus sprendimus sparčiai besivystančiame AI ir duomenų mokslo pasaulyje. Taigi kitą kartą, kai kas nors išmeta terminą „sintetiniai duomenys“, paklauskite jų: kokios rūšies?