Table Of Links میزیں بائیں abstract کے 1 Introduction 1 داخلہ 2 Background 2 پس منظر 3 Privacy-Relevant Methods 3 پرائیویسی متعلقہ طریقے 4 Identifying API Privacy-relevant Methods 4 API کی شناخت پرائیویسی متعلقہ طریقوں 5 Labels for Personal Data Processing ذاتی ڈیٹا کے لئے 5 ٹیبلز 6 Process of Identifying Personal Data 6 ذاتی ڈیٹا کی شناخت کا عمل 7 Data-based Ranking of Privacy-relevant Methods 7 پرائیویسی متعلقہ طریقوں کی ڈیٹا پر مبنی درجہ بندی 8 Application to Privacy Code Review 8 پرائیویسی کوڈ کا جائزہ لیں 9 Related Work 9 متعلقہ کاروبار Conclusion, Future Work, Acknowledgement And References نتیجہ، مستقبل کے کام، تسلیم اور حوالہ جات ذاتی ڈیٹا کی شناخت کا عمل نقطہ نظر میں ڈالنے سے پہلے، یہ ذاتی ڈیٹا اور ذاتی طور پر شناختی معلومات (PII) کے درمیان فرق کرنا ضروری ہے. دونوں ذاتی طور پر شناختی معلومات کے بیس سیٹ ہیں جبکہ، PII ایک شخص کو براہ راست شناختی ڈیٹا کی ایک قسم ہے. مثالوں میں اکاؤنٹ کی معلومات، رابطے کی تفصیلات، ذاتی ID، اور قومی IDs شامل ہیں. ذاتی ڈیٹا کے تمام 10 اقسام جو ہم ذاتی طور پر ذاتی طور پر دیکھتے ہیں، PII کے تحت نہیں ہیں. ہمارا بنیادی مقصد کوڈ بیس کے اندر ذاتی ڈیٹا کی فراہمی کی شناخت کرنا ہے، اس کی رازداری کے لئے اس کے اہم اثرات پر توجہ مرکوز کرنے کے لئے. اس کے لئے، ہم Tang et al. [?] کی طرف سے حوصلہ افزائی کی ایک نمونہ موازنہ کی تکنیک کا استعمال کرتے ہیں. [?] یہ تکنیک مؤثر طریقے سے اکاؤنٹ، رابطہ، ذاتی ID، مقام، اور قومی ID سمیت 10 اقسام کے اعداد و شمار کی شناخت کرتا ہے. ہم اس عمل کو آسان بنانے کے لئے کوڈ میں نمونہ موازنہ کے لئے ایک آلے Semgrep کا استعمال کرتے ہیں. 6.1 ذاتی ڈیٹا کی شناخت کے لئے سٹیٹک تجزیہ ہمارے نقطہ نظر کے ابتدائی مرحلے میں ذاتی ڈیٹا کو شامل کرنے کے لئے سٹیٹک تجزیہ کا استعمال کرتے ہوئے کوڈ ٹکڑوں کو تلاش کرنے کے لئے شامل ہے. ہم اس کام کے لئے Semgrep کا استعمال کرتے ہیں، بڑے کوڈ بیسوں کا تجزیہ کرنے میں اس کی کارکردگی اور انعطاف پذیری کی وجہ سے. ہم Semgrep کی متعدد زبانوں کے لئے سپورٹ اور اس کی مقامی ڈیٹا فلائٹ تجزیہ کے لئے اس کی صلاحیتوں پر اعتماد کرتے ہیں. 6.2 Defining Sources of Personal Data ہمارے تجزیہ کے سلسلے میں، ذرائع ایسے حالات کا حوالہ دیتے ہیں جہاں ذاتی ڈیٹا ظاہر ہوتا ہے. ہم ذاتی ڈیٹا کو دو طریقوں سے شناخت کرتے ہیں: 1) ذرائع کوڈ میں موجود ذاتی متن کے طور پر، اور 2) ان کے نام شناختوں پر مبنی متغیروں کے طور پر. 6.3 Rule Crafting for Identification ذاتی اعداد و شمار کو ظاہر کرنے کے لئے، ہم باقاعدہ بیان (ریجیکس) کا موازنہ استعمال کرتے ہیں. مثال کے طور پر، جب قومی شناختی نمبروں کے فارمیٹ کا پتہ لگانا ہوتا ہے. متغیر ذرائع کے لئے، ہم ذاتی ڈیٹا کے 10 اقسام کے مطابق شناختی اثرات کی ایک معیاری فہرست برقرار رکھتے ہیں. یہ شناختی اثرات ہمیں Semgrep قوانین کو بیان کرنے میں مدد کرتے ہیں. جعلی مثبتوں کو کم کرنے کے لئے، ہم ان regex قوانین پر مخصوص شرائط مقرر کرتے ہیں. مثال کے طور پر، کوڈ میں تمام انسانی ناموں کو پکڑنے کے لئے، ہم ایک regex نمونہ کا استعمال کرتے ہیں جو پہلے، آخری، اور مکمل ناموں کی طرح متغیروں کو ملتا ہے: (?i).(?:firstстаўgiven echeleth مصنفین : ٹینک ٹینک بائیکاٹ M. Østvold Authors: ٹینک ٹینک بائیکاٹ M. Østvold یہ دستاویز CC BY-NC-SA 4.0 لائسنس کے تحت دستیاب ہے. یہ کاغذ ہے CC BY-NC-SA 4.0 لائسنس کے تحت. دستیاب ہے Archive دستیاب ہے Archive