Table Of Links Galdiņš pa kreisi Abstraktā 1 Introduction 1 Ievads 2 Background 2 Fona bilde 3 Privacy-Relevant Methods 3 Privātuma pamatprincipi 4 Identifying API Privacy-relevant Methods 4 API identificēšana ar privātumu saistītās metodes 5 Labels for Personal Data Processing 5 Raksti par personas datu apstrādi 6 Process of Identifying Personal Data 6 Personas datu identificēšanas process 7 Data-based Ranking of Privacy-relevant Methods 7 Privātuma ziņā svarīgu metožu datubāzēta klasifikācija 8 Application to Privacy Code Review 8 Privātuma kodeksa pārskatīšana 9 Related Work 9 Saistītie darbi Conclusion, Future Work, Acknowledgement And References Secinājums, nākotnes darbs, atzīšana un atsauces Personas datu identificēšanas process Pirms iegremdēt pieeju, ir svarīgi atšķirt starp personas datiem un personiski identificējamu informāciju (PII). Lai gan abi ir apakšsistēmas informāciju, kas attiecas uz indivīdu, PII ir datu kategorija, kas tieši identificē personu. Piemēri ietver konta informāciju, kontaktinformāciju, personas ID un valsts ID. Ne visas 10 personas datu kategorijas, ko mēs uzskatām zemāk, ietilpst PII. PII iedarbība ir īpaši svarīga, jo tas var izraisīt personisku vai psiholoģisku kaitējumu, piemēram, identitātes zādzību. Mūsu galvenais mērķis ir identificēt personas datu plūsmu koda bāzē, koncentrējoties uz tās būtisko ietekmi uz privātumu. Lai to panāktu, mēs izmantojam Tang et al. [?] iedvesmojošu modeļu atbilstības tehniku. [?] Šī tehnika efektīvi identificē datus no 10 kategorijām, ieskaitot kontu, kontaktu, personīgo ID, atrašanās vietu un nacionālo ID. Mēs izmantojam Semgrep, rīku, kas ir pielāgots modeļu atbilstībai kodā, lai atvieglotu šo procesu. 6.1 Statiskā analīze personas datu identificēšanai Mūsu pieejas sākotnējā fāze ietver statiskās analīzes izmantošanu, lai atrastu koda fragmentus, kas satur personas datus.Mēs izmantojam Semgrep šim uzdevumam, ņemot vērā tā efektivitāti un elastību lielu koda bāzu analīzē.Mēs paļaujamies uz Semgrep atbalstu vairākām valodām un tā iespējām vietējai datu plūsmas analīzei. 6.2 Defining Sources of Personal Data Mūsu analīzes kontekstā avoti attiecas uz gadījumiem, kuros parādās personas dati.Mēs identificējam personas datus divos veidos: 1) kā avota kodā esošu burtveida tekstu un 2) kā mainīgos, pamatojoties uz to nosaukumu identifikatoriem.Mūsu identifikācijas noteikumi ir paredzēti, lai atbalstītu Java, JavaScript un TypeScript, bet tos var paplašināt uz citām valodām, kuras atbalsta Semgrep. 6.3 Rule Crafting for Identification Lai identificētu burtiski personas datus, mēs izmantojam regulāru izteiksmju (regex) atbilstību. Tas notiek, piemēram, nosakot valsts identifikācijas numuru formātu. Par mainīgiem avotiem mēs uzturam noklusējuma identifikatoru sarakstu, kas atbilst 10 personas datu kategorijām. Šie identifikatori palīdz mums formulēt Semgrep noteikumus. Lai samazinātu viltus pozitīvus, mēs uzliekam īpašus nosacījumus šiem regex noteikumiem. Piemēram, lai uzņemtu visus cilvēka vārdus kodā, mēs izmantojam regex shēmu, kas atbilst variācijām, piemēram, pirmajiem, pēdējiem un pilniem vārdiem: (?i).(?:firstстаўgiven echinophilus? Autori : Lāčplēša diena Bjarte M. Østvold Authors: Lāčplēša diena Bjarte M. Østvold Šis dokuments ir pieejams ar CC BY-NC-SA 4.0 licenci. Šis dokuments ir pieejams ar CC BY-NC-SA 4.0 licenci. Pieejams arhīvā