608 lượt đọc

Điều hướng quyền riêng tư trong thời đại điện toán lớn

từ tác giả Sal Kimmich9m2024/05/30

dài quá đọc không nổi

Dữ liệu bao gồm thông tin nhận dạng cá nhân yêu cầu tiêu chuẩn bảo mật cao nhất. Ý nghĩa của quyền riêng tư đã thay đổi mãi mãi, vì điện toán lớn đã giúp việc tái nhận dạng từ các tổ hợp tập dữ liệu “ẩn danh” hoàn toàn có thể được sử dụng để nhận dạng các cá nhân. Chúng ta cần thay đổi suy nghĩ nếu muốn bảo vệ quyền riêng tư trực tuyến.

featured image - Điều hướng quyền riêng tư trong thời đại điện toán lớn

Nhìn này, tôi hiểu điều đó tuân thủ KHÔNG phải là bảo mật .

Nhưng quyền riêng tư tương tác với bảo mật theo một cách thực sự độc đáo: dữ liệu bao gồm thông tin nhận dạng cá nhân đòi hỏi tiêu chuẩn bảo mật cao nhất. Ý nghĩa của quyền riêng tư đã thay đổi mãi mãi, vì điện toán lớn có nghĩa là việc tái nhận dạng từ các tổ hợp tập dữ liệu “ẩn danh” hoàn toàn có thể được sử dụng để nhận dạng các cá nhân một cách dễ dàng.

Chúng ta cần thay đổi suy nghĩ nếu muốn bảo vệ quyền riêng tư trực tuyến.

Điện toán, cụ thể là điện toán lớn - mở khóa các mẫu trong dữ liệu nhiều chiều bằng cách sử dụng các vectơ thông tin thưa thớt để trở nên dày đặc trong các mẫu nhận dạng cá nhân. Khả năng đo lường định lượng có bao nhiêu cá nhân hoặc nhóm có đặc điểm tương tự được đo lường định lượng bởi Unicity .

Unicity thường được sử dụng trong tiếng Anh với ý nghĩa thể hiện sự tốt bụng và cởi mở.

Tính duy nhất trong toán học được định nghĩa là nêu rõ tính duy nhất của một đối tượng toán học, điều này thường có nghĩa là chỉ có một đối tượng đáp ứng các thuộc tính nhất định hoặc tất cả các đối tượng của một lớp nhất định đều tương đương .

Khoảng cách duy nhất trong mật mã không phải là trọng tâm của ngày hôm nay, nhưng nó có thể giúp làm sáng tỏ ý tưởng: nó cho chúng ta biết cần bao nhiêu bản mã để khóa mã hóa có thể được khôi phục duy nhất, giả sử rằng kẻ tấn công biết thuật toán mã hóa và có quyền truy cập vào cả bản mã và một số số liệu thống kê về bản rõ. Về cơ bản, nó cho phép bạn tính toán xem đống cỏ khô cần phải lớn đến mức nào để tìm được một chiếc kim trước khi bạn đi đào.

Ý tưởng đo lường tính duy nhất trong các tập dữ liệu lớn này lần đầu tiên trở nên nổi tiếng nhờ một nghiên cứu cho thấy hơn 90% mọi người có thể được xác định lại duy nhất trong tập dữ liệu Giải thưởng Netflix khi họ “chứng minh rằng kẻ thù chỉ biết một chút về một người đăng ký cá nhân có thể dễ dàng xác định bản ghi của người đăng ký này trong tập dữ liệu. Bằng cách sử dụng Cơ sở dữ liệu phim trên Internet làm nguồn kiến thức cơ bản, chúng tôi đã xác định thành công hồ sơ Netflix của những người dùng đã biết, phát hiện ra sở thích chính trị rõ ràng của họ và những thông tin có thể nhạy cảm khác.”

Khử ẩn danh mạnh mẽ các tập dữ liệu thưa thớt lớn

Vào năm 2021, tôi lại được nhắc nhở rằng “ Nguy cơ tái nhận dạng vẫn cao ngay cả trong các bộ dữ liệu vị trí quy mô quốc gia .” Điều này đến từ cơ quan của tôi, Viện Y tế Quốc gia.

Tôi đã thực hiện các nghiên cứu về xử lý tín hiệu trên não người, để xem liệu chúng ta có thể thay đổi mạng lưới não mà không cần nhận thức có ý thức hay không. Tiết lộ nội dung: bạn hoàn toàn có thể . Dữ liệu đó có vẻ như là dữ liệu cá nhân khá nhạy cảm, có khả năng nhận dạng cao - nhưng có những bộ dữ liệu còn nguy hiểm hơn thế nhiều. Giống như cách sử dụng Neflix đã biết của bạn.

Nghiên cứu y tế do Chính phủ Hoa Kỳ tài trợ yêu cầu các bộ dữ liệu đó phải được cung cấp công khai cho công chúng khi quyền riêng tư có thể được bảo vệ một cách hợp lý nhưng khi bạn tính toán rủi ro nhận dạng lại không chỉ của một cá nhân trong tập dữ liệu mà còn bằng cách kết hợp với bất kỳ thứ gì có sẵn dễ dàng ở vị trí địa lý gần đó.

Thật đáng để đọc toàn bộ bản tóm tắt:

“Mặc dù dữ liệu ẩn danh không được coi là dữ liệu cá nhân, nhưng nghiên cứu gần đây đã chỉ ra cách các cá nhân thường có thể được nhận dạng lại. Các học giả đã lập luận rằng những phát hiện trước đây chỉ áp dụng cho các tập dữ liệu quy mô nhỏ và quyền riêng tư được bảo toàn trong các tập dữ liệu quy mô lớn. Sử dụng dữ liệu vị trí trong 3 tháng , chúng tôi (1) cho thấy rủi ro nhận dạng lại giảm chậm theo kích thước tập dữ liệu, (2) ước chừng mức giảm này bằng một mô hình đơn giản có tính đến ba phân bố cận biên trên toàn dân số và (3) chứng minh tính duy nhất đó là lồi và có giới hạn dưới tuyến tính. Ước tính của chúng tôi cho thấy rằng 93% số người sẽ được nhận dạng duy nhất trong tập dữ liệu gồm 60 triệu người sử dụng bốn điểm thông tin phụ trợ, với giới hạn dưới là 22%. Giới hạn dưới này tăng lên 87% khi có sẵn năm điểm. Kết hợp lại với nhau, kết quả của chúng tôi cho thấy quyền riêng tư của các cá nhân rất khó được bảo tồn ngay cả trong các bộ dữ liệu vị trí ở quy mô quốc gia.”

Đây là loại vàng mà tin tặc thường khai thác để lấy hồ sơ y tế, tài chính và chính phủ. Họ cần bốn điểm dữ liệu phụ trợ vàng và họ có thể tìm thấy cá nhân đó.

Đây không phải là mò kim đáy bể.
Đó là tìm một chiếc kim cụ thể trong một chồng kim.
Tất cả những gì tôi cần là dữ liệu vị trí của chiếc kim đó trong ba tháng, và tôi đã có nó .

Tính thống nhất trong các tập dữ liệu là một điểm mù lớn đối với hầu hết các tổ chức.

Đây lẽ ra là một vấn đề lớn về tuân thủ, nhưng đó cũng là một điểm mù.

Đó là một rủi ro bảo mật lớn cho đến khi chúng ta học cách quan sát nó.

Tôi vừa tham gia Khóa đào tạo Quản trị AI IAPP . Đó là tiêu chuẩn mới để hiểu các quy định toàn cầu liên quan đến các vấn đề về quyền riêng tư dành cho Trí tuệ nhân tạo vừa được thiết lập vào tháng 4 năm 2024. Tôi có nền tảng kỹ thuật, tôi muốn sử dụng khóa đào tạo đó để hiểu sâu hơn về suy nghĩ của tất cả các luật sư, cơ quan quản lý và nhân viên tuân thủ mà tôi thường xuyên tương tác. Tôi rất hài lòng với cách nó tổng hợp bối cảnh quy định hiện tại và tôi thích rằng chứng chỉ yêu cầu bạn phải cập nhật chương trình đào tạo về chủ đề này hàng năm: trong bối cảnh quy định này, mọi thứ diễn ra rất nhanh.

Tôi muốn tập trung một chút vào điều mà tôi mong các Chuyên gia Quản trị AI hiểu được.

Tôi ước gì chúng tôi đã đề cập đến những tiến bộ kỹ thuật trong Công nghệ nâng cao quyền riêng tư mà bạn cần xem xét nếu bạn có một tập dữ liệu có nguy cơ thống nhất cao. Tôi ước gì chúng tôi đã đề cập đến bất kỳ phép đo định lượng, đã biết nào để giảm nguy cơ thống nhất trong các tập dữ liệu nhỏ hoặc lớn. Tôi ước gì chúng ta đã đề cập đến sự thống nhất, chấm hết.

Tôi ước gì chúng ta đã đề cập đến việc sử dụng Công nghệ tăng cường quyền riêng tư (PET) là duy nhất như thế nào: cho đến tận những nguyên thủy của Hạt nhân Linux, công nghệ đó đã được thiết kế đặc biệt với mục đích bảo vệ quyền riêng tư. PET có thể giảm thiểu cả rủi ro về tuân thủ và bảo mật đối với các tập dữ liệu có rủi ro cao cùng một lúc.

Rủi ro bảo mật thường được xem xét dưới dạng mô hình mối đe dọa. Đó là phép tính mang tính suy đoán về phép nhân của ba yếu tố: loại mối đe dọa (tác nhân bên trong, lỗ hổng chuỗi cung ứng), mức độ tác động (đối với các bên liên quan, đối với người dùng cuối, danh tiếng doanh nghiệp) và khả năng xảy ra.

RỦI RO = ĐE DỌA x TÁC ĐỘNG x Khả năng xảy ra.

Hãy tập trung vào khả năng xảy ra: Tôi có xu hướng tính toán đó là giá trị tài sản đã biết/được cảm nhận và thậm chí đặt một mức giá đề xuất cho tài sản trí tuệ như thuật toán. Cái này quan trọng. Bạn nên đánh giá IP thuật toán của mình như thể nó là sản phẩm của bạn, vì đặc biệt trong AI, nó chắc chắn là sản phẩm của bạn.

Điều này cũng tập trung sự chú ý của bạn một cách rõ ràng vào mô hình mối đe dọa của bạn. Nếu doanh nghiệp của bạn đặc biệt tạo ra tài sản trí tuệ xung quanh các thuật toán tổng hợp thì các phương pháp bảo mật truyền thống sẽ không hiệu quả.

Hãy để tôi giải thích tại sao:

Bây giờ chúng tôi thực sự giỏi mã hóa dữ liệu.
Thật không may, theo nghĩa đen là không thể tính toán được dữ liệu được mã hóa.

Nếu doanh nghiệp của bạn dựa vào điện toán (và có thể là như vậy nếu bạn đã đọc đến đây), thì bạn có trách nhiệm đưa ra quyết định về các mối đe dọa bảo mật liên quan đến quyền riêng tư đối với khu vực bề mặt của bạn. Quyền riêng tư là một phần của công nghệ mà việc tuân thủ có thể thực sự đi đôi với bảo mật.

Quay lại với dữ liệu được mã hóa khó chịu đó: có một số lý do chính đáng khiến dữ liệu đó có thể được mã hóa. Trường hợp sử dụng thực sự yêu thích của tôi đối với Máy tính bí mật PET là trong cuộc chiến chống lại nạn buôn người toàn cầu.

Trên thế giới luôn có những người tốt, đấu tranh cho quyền lợi và tự do của những nạn nhân của vấn đề phân tán toàn cầu này. Theo truyền thống, các kỹ thuật OSINT sẽ được sử dụng để xác định vị trí của cơ sở dữ liệu có thông tin, thường là một tập hợp thông tin ảnh hoặc video, mà về mặt pháp lý, bạn KHÔNG được phép lưu trữ và giữ bằng chứng đó, vì mục tiêu là hạn chế mọi khả năng đối với những hồ sơ đó. để có một vectơ phân phối mới.

Điều này đã tạo ra một vấn đề, vì những kẻ săn mồi có thể dễ dàng di chuyển thông tin trên mạng, tập trung và phân cấp kiến trúc của chúng khi cần thiết. Những người đang giải quyết vấn đề không có được sự linh hoạt như vậy.

Quy định hợp lý, tác dụng phụ đáng tiếc.

Giờ đây, Điện toán bí mật mang đến cho chúng ta một cuộc chiến công bằng trong Trao đổi dữ liệu riêng tư Hy vọng công lý : trình bày cách tập trung các hồ sơ có rủi ro cực kỳ cao đó vào Môi trường thực thi đáng tin cậy, bảo vệ dữ liệu đang sử dụng bằng cách thực hiện tính toán trong một môi trường được chứng thực, dựa trên phần cứng. Môi trường thực thi đáng tin cậy: nơi dữ liệu này sẽ chỉ được quan sát bằng thuật toán chứ không phải bằng mắt người.

Và nó trở nên tốt hơn. Bởi vì chúng tôi rất giỏi mã hóa nên giờ đây điều này có thể trở thành một phần của hệ sinh thái dữ liệu liên kết, rộng lớn. Các tổ chức trên khắp thế giới có thể tập hợp các hồ sơ của họ lại với nhau và sử dụng sự kỳ diệu của chỉ bốn biện pháp phụ trợ vàng để có được thông tin có khả năng nhận dạng cá nhân về không chỉ các cá nhân mà còn cả các địa điểm và các mô hình di chuyển tiềm năng. Một cuộc chiến công bằng, trong đó quyền riêng tư được bảo vệ bởi một môi trường thực thi biệt lập: chỉ những con mắt thuật toán mới có thể nhìn thấy lại những hình ảnh đó.

Unicity không phải là một cái ác lớn.

Unicity một công cụ, một công cụ thực sự tốt. Unicity thay thế điểm mù của bạn bằng một phép tính. Hãy xem những nỗ lực đầu tiên của tổ chức bạn trong Đánh giá sự phù hợp AI: quản lý rủi ro, quản trị dữ liệu và thực hành an ninh mạng. Hãy suy nghĩ xa hơn quy định hiện hành và đến tổng rủi ro mà hệ thống của bạn thực sự có thể gây ra cho người dùng cuối và bắt đầu lập mô hình mối đe dọa cho một thế giới dày đặc dữ liệu. Chúng ta hãy làm điều này đúng.

Tôi đã học được rất nhiều điều trong những ngày chúng tôi dành nhiều ngày để tìm hiểu mọi khuôn khổ trong quy định về AI. Dựa trên Khung quy định được cung cấp trong khóa đào tạo AIGP, đây là khuyến nghị hiện tại của tôi về cách xử lý vấn đề này ở bất kỳ tổ chức có quy mô vừa và lớn nào.

Ưu tiên các khuôn khổ hiện tại cho quản trị AI

Khung quản trị AI phong phú

Quản lý rủi ro toàn diện (NIST AI RMF)

Quy trình quản lý rủi ro có cấu trúc:
- Xác định rủi ro : Tiến hành đánh giá rủi ro kỹ lưỡng để xác định các rủi ro tiềm ẩn liên quan đến AI.
- Đánh giá rủi ro : Đánh giá mức độ nghiêm trọng và khả năng xảy ra các rủi ro đã xác định.
- Quản lý rủi ro : Thực hiện các chiến lược để giảm thiểu rủi ro đã xác định.
- Giám sát và cập nhật : Liên tục giám sát hệ thống AI để phát hiện những rủi ro mới và cập nhật các chiến lược quản lý rủi ro phù hợp.

Phát triển AI có đạo đức (Nguyên tắc AI của OECD)

Những cân nhắc về mặt đạo đức :
- Thiết kế lấy con người làm trung tâm : Đảm bảo hệ thống AI ưu tiên đầu vào của con người và giải quyết các nhu cầu cũng như trải nghiệm của con người.
- Tính minh bạch và có thể giải thích : Cung cấp thông tin rõ ràng và dễ hiểu về cách hệ thống AI đưa ra quyết định.
- Trách nhiệm giải trình : Thiết lập trách nhiệm giải trình rõ ràng về hành động và kết quả của hệ thống AI.

Tuân thủ quy định (GDPR, Đạo luật AI của EU)

Bảo vệ dữ liệu và quyền riêng tư :
- Tuân thủ GDPR : Thực hiện các biện pháp bảo vệ dữ liệu cá nhân, bao gồm giảm thiểu và ẩn danh dữ liệu.
- Đạo luật AI của EU : Phân loại hệ thống AI theo rủi ro và đảm bảo tuân thủ các yêu cầu cụ thể đối với các hệ thống AI có rủi ro cao.
- Đánh giá tác động dữ liệu : Tiến hành Đánh giá tác động bảo vệ dữ liệu (DPIA) và đánh giá sự phù hợp của AI để đánh giá rủi ro về quyền riêng tư.

Cân nhắc kỹ thuật

Công nghệ tăng cường quyền riêng tư (PET) :
- Quyền riêng tư khác biệt : Triển khai quyền riêng tư khác biệt để đảm bảo quyền riêng tư dữ liệu trong khi phân tích các mẫu nhóm.
- Học tập liên kết : Sử dụng học tập liên kết để đào tạo các mô hình AI trên dữ liệu phi tập trung mà không chia sẻ các điểm dữ liệu riêng lẻ.
- Mã hóa đồng cấu : Sử dụng mã hóa đồng cấu để thực hiện tính toán trên dữ liệu được mã hóa.
Rủi ro về tính thống nhất và tái nhận dạng :
- Đo lường tính đơn nhất : Đo lường định lượng rủi ro nhận dạng lại trong bộ dữ liệu để đảm bảo quyền riêng tư.
- Giám sát và Giảm tính duy nhất : Liên tục theo dõi tính duy nhất của các tập dữ liệu và thực hiện các chiến lược để giảm thiểu tính duy nhất đó.

Cố gắng đo lường tác động theo thời gian đối với việc triển khai của bạn

Thành lập Cơ quan quản trị trung tâm: Tạo một nhóm chuyên trách chịu trách nhiệm quản trị AI, đảm bảo tuân thủ GDPR, Đạo luật AI của EU, NIST AI RMF và Nguyên tắc AI của OECD.
Phát triển các chính sách và thủ tục tích hợp: Tạo các chính sách tích hợp các nguyên tắc của cả bốn khung pháp lý, tập trung vào bảo vệ dữ liệu, quản lý rủi ro, tính minh bạch và trách nhiệm giải trình.
Tận dụng công nghệ để tuân thủ: Sử dụng các công nghệ tiên tiến, chẳng hạn như công nghệ tăng cường quyền riêng tư (PET) và các công cụ giám sát AI, để hỗ trợ các nỗ lực quản lý rủi ro và tuân thủ.
Luôn cập nhật những thay đổi về quy định và tiến bộ trong quản trị AI, đảm bảo khung quản trị phát triển theo những phát triển mới. Giữ một đường chân trời quy định, nhưng hãy bắt đầu nghĩ khác đi về vấn đề này khi bạn vẫn còn có thể. Hãy xem xét tất cả các cách mà chúng ta thực sự có thể thực hiện tính toán có trách nhiệm.

Nếu chúng ta muốn xác định danh tính các cá nhân, hãy đảm bảo an toàn cho những khu vực bề mặt đó.

Nếu chúng tôi không muốn nhận dạng các cá nhân, hãy triển khai cách giám sát nguy cơ tái nhận dạng đang diễn ra trong đầu ra của hệ thống của bạn.

Mức độ thống nhất thấp hơn trong các bộ dữ liệu công khai và bị vi phạm sẽ rất tốt cho tất cả chúng ta. Đó là biện pháp vệ sinh dữ liệu mà nhóm của bạn có thể thực hiện, có thể thực hiện bằng thước đo định lượng về rủi ro sử dụng dữ liệu hội tụ của một đối thủ có động cơ bảo mật. Chúng tôi hoàn toàn có thể và phải nâng cao tiêu chuẩn bảo vệ dữ liệu cá nhân khỏi việc nhận dạng lại. Chúng tôi chỉ có thể bắt đầu làm điều đó nếu chúng tôi đo lường nó bằng dữ liệu của chính mình. Nếu bạn nghiêm túc về các công nghệ nâng cao quyền riêng tư và làn sóng thay đổi về quy định trong lĩnh vực điện toán, hãy gửi cho tôi một câu hỏi thú vị về vấn đề đó . Nếu hệ thống của bạn nhất thiết phải sử dụng dữ liệu có rủi ro cao trong quá trình đào tạo, thì bạn cũng có thể quan tâm đến Bỏ học trong AI hoặc Các mối đe dọa bảo mật đối với LLM có tác động cao .