Table Of Links 左のテーブル 抽象 1 Introduction 1 導入 2 Background 2 背景 3 Privacy-Relevant Methods 3 プライバシー関連の方法 4 Identifying API Privacy-relevant Methods 4 プライバシー関連の API 方法の識別 5 Labels for Personal Data Processing 5 個人情報の取り扱いについて 6 Process of Identifying Personal Data 6 個人データの識別手続き 7 Data-based Ranking of Privacy-relevant Methods 7 プライバシー関連の方法のデータベースランキング 8 Application to Privacy Code Review 8 プライバシーコードのレビュー 9 Related Work 9 関連事業 Conclusion, Future Work, Acknowledgement And References 結論、将来の仕事、承認と参照 個人データの識別プロセス このアプローチに浸透する前に、個人データと個人識別情報(PII)を区別することが重要です。どちらも個人に関連する情報のサブセットであるが、PIIは、個人を直接識別するデータのカテゴリです。例には、アカウント情報、連絡先情報、個人ID、および国家IDが含まれます。以下の10カテゴリの個人データのすべてがPIIに含まれるわけではありません。 当社の主な目的は、コードベース内の個人データの流れを識別し、プライバシーへの重要な影響に焦点を当てることです。これを実現するために、Tang et al. からインスピレーションを受けたパターンマッチングテクニックを使用します。このテクニックは、アカウント、連絡先、個人ID、ロケーション、ナショナルIDを含む10カテゴリのデータを効果的に識別します。 6.1 個人データの識別のための静的分析 当社のアプローチの初期段階は、個人データを含むコードの断片を特定するために静的分析を使用することです Semgrep は、大規模なコードベースを分析するための効率性と柔軟性を考慮して、このタスクのために Semgrep を使用しています Semgrep は、複数の言語のサポートとローカルデータフロー分析のための機能に依存しています。 6.2 Defining Sources of Personal Data 当社の分析の文脈では、ソースは、個人データが表示される例を参照します。当社は、個人データを2つの方法で識別します: 1)ソースコードに存在する文字列のテキスト、および 2)その名前識別子に基づく変数です。当社の識別ルールはJava、JavaScript、TypeScriptをサポートするように設計されていますが、Semgrepがサポートする他の言語に拡張することができます。 6.3 Rule Crafting for Identification 文字通り個人データを識別するには、規則正しい表現(regex)のマッチングを使用します。 たとえば、国家ID番号のフォーマットを識別する際には、これを使用します。 変数源については、個人データの10カテゴリーに該当する識別子のデフォルトリストを維持します。 これらの識別子は、Semgrepのルールを定義するのに役立ちます。 偽ポジティブを減らすために、これらのregexのルールに特定の条件を課します。 たとえば、コード内のすべての人間名をキャプチャするには、最初の、最後の、および完全な名前(?i)。 著者: ファイヤング・タン Bjarte M. Østvold Authors: ファイヤング・タン バイヤルト M. Østvold この論文は、CC BY-NC-SA 4.0 ライセンスの下で archiv で利用できます。 この紙は CC BY-NC-SA 4.0 ライセンス ARCHIV で利用可能 ARCHIV で利用可能