Table Of Links Το τραπέζι της Αριστεράς ΑΠΑΣΧΟΛΗΣΗ 1 Introduction 1 Εισαγωγή 2 Background 2 Πλαίσιο 3 Privacy-Relevant Methods 3 Σχετικές με την ιδιωτικότητα μεθόδους 4 Identifying API Privacy-relevant Methods 4 Προσδιορισμός των μεθόδων API που σχετίζονται με την προστασία της ιδιωτικής ζωής 5 Labels for Personal Data Processing 5 Ετικέτες Επεξεργασία Προσωπικών Δεδομένων 6 Process of Identifying Personal Data 6 Διαδικασία αναγνώρισης δεδομένων προσωπικού χαρακτήρα 7 Data-based Ranking of Privacy-relevant Methods 7 Κατάταξη βάσει δεδομένων των μεθόδων που σχετίζονται με το απόρρητο 8 Application to Privacy Code Review 8 Εφαρμογή στον Κώδικα Προστασίας Προσωπικών Δεδομένων 9 Related Work 9 Σχετικές εργασίες Conclusion, Future Work, Acknowledgement And References Συμπέρασμα, μελλοντική εργασία, αναγνώριση και αναφορές ΔΙΑΔΙΚΑΣΙΑ ΤΑΥΤΟΤΗΤΑΣ ΠΡΟΣΩΠΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Πριν βυθιστούμε στην προσέγγιση, είναι κρίσιμο να διακρίνουμε μεταξύ των προσωπικών δεδομένων και των προσωπικών πληροφοριών (PII). Ενώ και τα δύο είναι υποσύνολα πληροφοριών που σχετίζονται με ένα άτομο, το PII είναι μια κατηγορία δεδομένων που ταυτοποιεί άμεσα ένα άτομο. Παραδείγματα περιλαμβάνουν πληροφορίες λογαριασμού, στοιχεία επικοινωνίας, προσωπικές ταυτότητες και εθνικές ταυτότητες. Δεν είναι όλες οι 10 κατηγορίες προσωπικών δεδομένων που εξετάζουμε παρακάτω εμπίπτουν στο PII. Ο πρωταρχικός μας στόχος είναι να προσδιορίσουμε τη ροή των προσωπικών δεδομένων μέσα σε μια βάση κώδικα, εστιάζοντας στις κρίσιμες συνέπειές της για την ιδιωτικότητα. Για να το επιτύχουμε αυτό, χρησιμοποιούμε μια τεχνική αντιστοίχισης μοτίβων εμπνευσμένη από την Tang et al. [?]. Αυτή η τεχνική προσδιορίζει αποτελεσματικά δεδομένα από 10 κατηγορίες, συμπεριλαμβανομένων του λογαριασμού, της επαφής, της προσωπικής ταυτότητας, της τοποθεσίας και της εθνικής ταυτότητας. χρησιμοποιούμε το Semgrep, ένα εργαλείο προσαρμοσμένο για την αντιστοίχιση μοτίβων σε κώδικα, για να διευκολύνει αυτή τη διαδικασία. 6.1 Στατική ανάλυση για την αναγνώριση δεδομένων προσωπικού χαρακτήρα Η αρχική φάση της προσέγγισής μας περιλαμβάνει τη χρήση στατικής ανάλυσης για τον εντοπισμό τμημάτων κώδικα που περιέχουν προσωπικά δεδομένα.Χρησιμοποιούμε το Semgrep για αυτό το έργο, δεδομένης της αποτελεσματικότητας και της ευελιξίας του στην ανάλυση μεγάλων βάσεων κώδικα. 6.2 Defining Sources of Personal Data Στο πλαίσιο της ανάλυσης μας, οι πηγές αναφέρονται σε περιπτώσεις όπου εμφανίζονται προσωπικά δεδομένα. ταυτοποιούμε τα προσωπικά δεδομένα με δύο τρόπους: 1) ως κυριολεκτικό κείμενο που υπάρχει στον πηγαίο κώδικα και 2) ως μεταβλητές, με βάση τα αναγνωριστικά ονόματός τους. οι κανόνες ταυτοποίησης μας έχουν σχεδιαστεί για να υποστηρίζουν Java, JavaScript και TypeScript, αλλά μπορούν να επεκταθούν σε άλλες γλώσσες που υποστηρίζει η Semgrep. 6.3 Rule Crafting for Identification Για να προσδιορίσουμε τα κυριολεκτικά προσωπικά δεδομένα, χρησιμοποιούμε τακτική αντιστοίχιση εκφράσεων (regex). Αυτό παίζεται, για παράδειγμα, όταν προσδιορίζουμε τη μορφή των εθνικών αριθμών αναγνώρισης. Για τις μεταβλητές πηγές, διατηρούμε μια προεπιλεγμένη λίστα αναγνωριστικών που αντιστοιχούν στις 10 κατηγορίες προσωπικών δεδομένων. Αυτά τα αναγνωριστικά μας βοηθούν να διατυπώσουμε τους κανόνες του Semgrep. Για να μειώσουμε τα ψευδώς θετικά, επιβάλλουμε συγκεκριμένους όρους σε αυτούς τους κανόνες regex. Για παράδειγμα, για να συλλάβουμε όλα τα ανθρώπινα ονόματα στον κώδικα, χρησιμοποιούμε ένα πρότυπο regex που φιλοξενεί παραλλαγές όπως Οι συγγραφείς: Τσιτσιπάς Τανγκ Μπιάρτε Μ. Οισφόλντ Authors: Τσιτσιπάς Τανγκ Μπιάρτε Μ. Οισφόλντ Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY-NC-SA 4.0. Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY-NC-SA 4.0. Διαθέσιμο στα Αρχεία