Table Of Links Baloldali asztal absztrakt 1 Introduction 1 Bevezetés 2 Background 2 Háttér 3 Privacy-Relevant Methods 3 Adatvédelmi szempontból releváns módszerek 4 Identifying API Privacy-relevant Methods 4 Az API adatvédelemmel kapcsolatos módszereinek azonosítása 5 Labels for Personal Data Processing 5 A személyes adatok feldolgozása 6 Process of Identifying Personal Data 6 Személyes adatok azonosításának folyamata 7 Data-based Ranking of Privacy-relevant Methods 7 Adatvédelmi szempontból releváns módszerek adatközpontú rangsorolása 8 Application to Privacy Code Review 8 Az adatvédelmi kódex felülvizsgálata 9 Related Work 9 Kapcsolódó munkák Conclusion, Future Work, Acknowledgement And References Következtetés, jövőbeli munka, elismerés és referenciák Személyes adatok azonosításának folyamata Mielőtt belemerülnénk a megközelítésbe, alapvető fontosságú megkülönböztetni a személyes adatokat és a személyazonosításra alkalmas információkat (PII). Bár mindkettő olyan információ alcsoport, amely egy személyre vonatkozik, a PII egy olyan adatkategória, amely közvetlenül azonosítja egy személyt. Példák közé tartoznak a fiókadatok, a kapcsolattartási adatok, a személyes azonosítók és a nemzeti azonosítók. Nem minden 10 személyes adatkategória, amelyet az alábbiakban figyelembe vesszük, tartozik a PII-be. Elsődleges célunk, hogy azonosítsuk a személyes adatok áramlását egy kódbázisban, és összpontosítsunk a magánélet szempontjából kulcsfontosságú következményeire. Ehhez a Tang et al. [?] által inspirált mintamegfelelési technikát használunk. [?] Ez a technika hatékonyan azonosítja a 10 kategóriából származó adatokat, beleértve a Fiókot, a Kapcsolatot, a Személyes azonosítót, a Helyet és a Nemzeti azonosítót. Használjuk a Semgrep-t, a kódban a mintamegfeleléshez szabott eszközt, hogy megkönnyítsük ezt a folyamatot. 6.1 Statikus elemzés a személyes adatok azonosításához Megközelítésünk kezdeti szakaszában statikus elemzést használunk a személyes adatokat tartalmazó kódfragmentumok lokalizálására.A Semgrep-ot erre a feladatra használjuk, mivel nagy kódbázisok elemzésében hatékonyan és rugalmasan működik.A Semgrep többnyelvű támogatására és a helyi adatáramlás elemzésére szolgáló képességeire támaszkodunk. 6.2 Defining Sources of Personal Data Az elemzésünk keretében a források olyan esetekre utalnak, ahol személyes adatok jelennek meg. A személyes adatokat kétféleképpen azonosítjuk: 1) a forráskódban jelen lévő szó szerinti szövegként, és 2) változóként, névazonosítók alapján. 6.3 Rule Crafting for Identification A szó szerinti személyes adatok azonosításához rendszeres kifejezéseket (regex) használunk. Ez például a nemzeti azonosítószámok formátumának azonosításakor következik be. A változó források esetében a személyes adatok 10 kategóriájának megfelelő azonosítók alapértelmezett listáját tartjuk fenn. Ezek az azonosítók segítenek a Semgrep szabályok megfogalmazásában. A hamis pozitívok csökkentése érdekében konkrét feltételeket írunk elő ezekre a regex szabályokra. Például a kódban szereplő valamennyi emberi név rögzítéséhez egy olyan regex mintát használunk, amely az első, az utolsó és a teljes nevek változásait foglalja magában: (?i).(?:firstстаўgiven fagfulllast ). A szerzők: Fekete Tang Bjarte M. Östvold Authors: Fekete Tang Bjarte M. Östvold Ez a dokumentum a CC BY-NC-SA 4.0 licenc alatt érhető el. Ez a dokumentum a CC BY-NC-SA 4.0 licenc alatt érhető el. Elérhető archívum