Table Of Links tavolo di sinistra astratto 1 Introduction 1 Introduzione 2 Background 2 Sfondi 3 Privacy-Relevant Methods 3 Metodi relativi alla privacy 4 Identifying API Privacy-relevant Methods 4 Identificazione delle API metodi rilevanti per la privacy 5 Labels for Personal Data Processing 5 Etichette per il trattamento dei dati personali 6 Process of Identifying Personal Data 6 Processo di identificazione dei dati personali 7 Data-based Ranking of Privacy-relevant Methods 7 Classificazione basata sui dati di metodi rilevanti per la privacy 8 Application to Privacy Code Review 8 Applicazione alla revisione del Codice Privacy 9 Related Work 9 Lavori correlati Conclusion, Future Work, Acknowledgement And References Conclusione, lavori futuri, riconoscimenti e riferimenti Processo di identificazione dei dati personali Prima di approfondire l'approccio, è fondamentale distinguere tra dati personali e informazioni di identificazione personale (PII). Mentre entrambi sono sottoinsiemi di informazioni che si riferiscono a un individuo, PII è una categoria di dati che identifica direttamente una persona. Esempi includono informazioni sull'account, dettagli di contatto, ID personali e ID nazionali. Non tutte le 10 categorie di dati personali che consideriamo di seguito rientrano in PII. L'esposizione a PII è particolarmente rilevante in quanto potrebbe portare a danni personali o psicologici, come il furto di identità. Il nostro obiettivo principale è quello di identificare il flusso di dati personali all'interno di una base di codice, concentrandosi sulle sue implicazioni cruciali per la privacy. Per raggiungere questo obiettivo, utilizziamo una tecnica di corrispondenza dei modelli ispirata a Tang et al. [?]. Questa tecnica identifica efficacemente i dati provenienti da 10 categorie, tra cui Account, Contatto, ID personale, Posizione e ID nazionale. Utilizziamo Semgrep, uno strumento su misura per la corrispondenza dei modelli in codice, per facilitare questo processo. 6.1 Analisi statica per l'identificazione dei dati personali La fase iniziale del nostro approccio comporta l'uso di analisi statica per localizzare frammenti di codice che contengono dati personali. Utilizziamo Semgrep per questo compito, data la sua efficienza e flessibilità nell'analisi di grandi banche di codice. Ci affidiamo al supporto di Semgrep per più lingue e alle sue capacità per l'analisi del flusso di dati locale. 6.2 Defining Sources of Personal Data Nel contesto della nostra analisi, le fonti si riferiscono a casi in cui vengono visualizzati dati personali.Identiamo i dati personali in due modi: 1) come testo letterale presente nel codice sorgente e 2) come variabili, in base ai loro identificatori di nome.Le nostre regole di identificazione sono progettate per supportare Java, JavaScript e TypeScript ma possono essere estese ad altre lingue che Semgrep supporta. 6.3 Rule Crafting for Identification Per identificare i dati personali letterali, utilizziamo la corrispondenza di espressione regolare (regex). Ciò entra in gioco, ad esempio, quando si identifica il formato dei numeri di ID nazionali. Per le fonti variabili, manteniamo un elenco predefinito di identificatori che corrispondono alle 10 categorie di dati personali. Questi identificatori ci aiutano a formulare le regole di Semgrep. Per ridurre i falsi positivi, imponiamo condizioni specifiche a queste regole di regex. Ad esempio, per catturare tutti i nomi umani nel codice, usiamo un modello di regex che accoglie le variazioni come i nomi primi, ultimi e completi: (?i).(?:firstстаўgiven echinophyllast. Gli autori : Il Tang Tang di Bjarte M. Østvold Authors: Il Tang Tang di Bjarte M. Østvold Questo documento è disponibile su archiv sotto la licenza CC BY-NC-SA 4.0. Questo documento è Con la licenza CC BY-NC-SA 4.0. Disponibile in archivio Disponibile in archivio