Table Of Links Levo od stola Abstrakcija 1 Introduction 1 Uvod 2 Background 2 Pozadina 3 Privacy-Relevant Methods 3 Metode relevantne za privatnost 4 Identifying API Privacy-relevant Methods 4 Identifikacija API metoda relevantnih za privatnost 5 Labels for Personal Data Processing 5 Oznake za obradu osobnih podataka 6 Process of Identifying Personal Data 6 Proces identifikacije osobnih podataka 7 Data-based Ranking of Privacy-relevant Methods 7 Pozicioniranje metodologija koje su relevantne za privatnost na osnovu podataka 8 Application to Privacy Code Review 8 Aplikacija za reviziju Zakona o privatnosti 9 Related Work 9 Povezani poslovi Conclusion, Future Work, Acknowledgement And References Zaključak, budući rad, priznanje i reference Proces identifikacije ličnih podataka Pre nego što uđemo u pristup, ključno je razlikovati između osobnih podataka i osobnih podataka (PII). Dok su oba podskupina informacija koje se odnose na pojedinca, PII je kategorija podataka koja direktno identificira osobu. Primjeri uključuju podatke o računu, podatke o kontaktu, osobne identifikacijske podatke i nacionalne identifikacijske podatke. Ne svi od 10 kategorija osobnih podataka koje smatramo ispod spadaju pod PII. Izloženost PII-u posebno je važna jer može dovesti do osobne ili psihološke štete, kao što je krađa identiteta. Naš primarni cilj je da identificiramo protok osobnih podataka unutar baze podataka, fokusirajući se na njegove ključne implikacije za privatnost. Da bismo to postigli, koristimo tehniku usklađivanja uzoraka inspiriranu Tang et al. [?]. Ova tehnika učinkovito identificira podatke iz 10 kategorija, uključujući Račun, Kontakt, Lični ID, Lokacija i Nacionalni ID. Mi koristimo Semgrep, alat prilagođen usklađivanju uzoraka u kodu, da bi se olakšao ovaj proces. 6.1 Static analiza za identifikaciju ličnih podataka Početna faza našeg pristupa uključuje upotrebu statičke analize za lociranje fragmenata koda koji sadrže lične podatke. Koristimo Semgrep za ovaj zadatak, s obzirom na njegovu efikasnost i fleksibilnost u analizi velikih baza koda. 6.2 Defining Sources of Personal Data U kontekstu naše analize, izvori se odnose na slučajeve u kojima se pojavljuju osobni podaci. Identificiramo osobne podatke na dva načina: 1) kao doslovni tekst prisutan u izvornom kodu i 2) kao varijable, na osnovu njihovih identifikatora imena. Naša pravila identifikacije su dizajnirana da podržavaju Java, JavaScript i TypeScript, ali se mogu proširiti na druge jezike koje Semgrep podržava. 6.3 Rule Crafting for Identification Za određivanje doslovnih osobnih podataka koristimo redovne ekspresije (regex) usklađivanje. To se odvija, na primjer, kada se utvrđuje format nacionalnih identifikacijskih brojeva. Za varijabilne izvore, održavamo podrazumevanu listu identifikatora koji odgovaraju 10 kategorija osobnih podataka. Ovi identifikatori nam pomažu da formuliramo Semgrep pravila. Da bismo smanjili lažne pozitivne, namećemo posebne uslove ovim regex pravilima. Na primjer, da bismo uhvatili sva ljudska imena u kodu, koristimo model regexa koji prihvata varijacije kao što su prva, posljednja i puna imena: (?i).(?:firstстаўgiven echelethfulllast ). Autori : Uslovi korišćenja Bjarte M. Østvold Authors: Uslovi korišćenja Bjarte M. Østvold Izveštaj Ovaj dokument je dostupan na archiv pod licencom CC BY-NC-SA 4.0. Ovaj dokument je dostupan na archiv pod licencom CC BY-NC-SA 4.0. Dostupno u Arhivu