Tiền phạt liên quan đến phơi nhiễm dữ liệu nhạy cảm đang gia tăng. Chẳng hạn, các vi phạm nghiêm trọng GDPR có thể khiến các công ty thiệt hại tới 4% doanh thu toàn cầu hàng năm của họ , trong khi các vi phạm nghiêm trọng HIPAA có thể dẫn đến phạt tù.
Môi trường sản xuất của bạn có thể được bảo vệ triệt để. Nhưng còn về việc thử nghiệm các sáng kiến và bản trình diễn bán hàng thì sao? Bạn có tin tưởng vào các nhà thầu bên thứ ba có quyền truy cập vào dữ liệu nhạy cảm của bạn không? Họ sẽ làm hết sức mình để bảo vệ nó?
Để đảm bảo tuân thủ và an toàn dữ liệu, các công ty đang chuyển sang các nhà cung cấp dịch vụ quản lý dữ liệu . Nếu bạn cũng quan tâm, hãy xem hướng dẫn này để trả lời ba câu hỏi quan trọng:
Nó cũng trình bày một ví dụ về mặt nạ dữ liệu chi tiết từ danh mục đầu tư của chúng tôi. Sau khi đọc bài báo, bạn sẽ có đủ thông tin để đàm phán với các nhà cung cấp mặt nạ dữ liệu.
Vì vậy, mặt nạ dữ liệu là gì?
Che giấu dữ liệu được định nghĩa là xây dựng một phiên bản thực tế và có cấu trúc tương tự nhưng dù sao cũng là phiên bản giả mạo của dữ liệu tổ chức. Nó thay đổi các giá trị dữ liệu ban đầu bằng cách sử dụng các kỹ thuật thao tác trong khi vẫn duy trì cùng một định dạng và cung cấp một phiên bản mới không thể được thiết kế ngược hoặc theo dõi trở lại các giá trị xác thực. Đây là một ví dụ về dữ liệu bị che giấu:
Bạn có cần áp dụng thuật toán che dấu dữ liệu cho tất cả dữ liệu được lưu trữ trong công ty của mình không? Hầu như không. Dưới đây là các loại dữ liệu mà bạn chắc chắn cần phải bảo vệ:
Mặt nạ dữ liệu bảo vệ thông tin nhạy cảm được sử dụng cho các mục đích phi sản xuất. Vì vậy, miễn là bạn sử dụng bất kỳ loại dữ liệu nhạy cảm nào được trình bày trong phần trước trong đào tạo, thử nghiệm, trình diễn bán hàng hoặc bất kỳ loại hoạt động phi sản xuất nào khác, bạn cần áp dụng các kỹ thuật che giấu dữ liệu. Điều này có ý nghĩa vì các môi trường phi sản xuất thường ít được bảo vệ hơn và đưa ra nhiều lỗ hổng bảo mật hơn .
Ngoài ra, nếu có nhu cầu chia sẻ dữ liệu của bạn với các nhà cung cấp và đối tác bên thứ ba, bạn có thể cấp quyền truy cập vào dữ liệu được che dấu thay vì buộc bên kia tuân thủ các biện pháp bảo mật mở rộng của bạn để truy cập cơ sở dữ liệu gốc. Thống kê cho thấy 19% vi phạm dữ liệu xảy ra do sự thỏa hiệp từ phía đối tác kinh doanh.
Ngoài ra, mặt nạ dữ liệu có thể cung cấp các ưu điểm sau:
Có năm loại mặt nạ dữ liệu chính nhằm đáp ứng các nhu cầu khác nhau của tổ chức.
Ngụ ý tạo bản sao lưu của dữ liệu gốc và giữ dữ liệu đó an toàn trong một môi trường riêng biệt cho các trường hợp sử dụng sản xuất. Sau đó, nó ngụy trang bản sao bằng cách đưa vào các giá trị giả mạo nhưng thực tế và cung cấp bản sao đó cho các mục đích phi sản xuất (ví dụ: thử nghiệm, nghiên cứu), cũng như chia sẻ với các nhà thầu.
Nhằm mục đích sửa đổi một đoạn trích của dữ liệu gốc trong thời gian chạy khi nhận được truy vấn đến cơ sở dữ liệu. Vì vậy, một người dùng không được phép xem thông tin nhạy cảm sẽ truy vấn cơ sở dữ liệu sản xuất và phản hồi sẽ được ẩn ngay lập tức mà không thay đổi các giá trị ban đầu. Bạn có thể triển khai nó thông qua proxy cơ sở dữ liệu, như được trình bày bên dưới. Loại mặt nạ dữ liệu này thường được sử dụng trong cài đặt chỉ đọc để ngăn ghi đè dữ liệu sản xuất.
Loại mặt nạ dữ liệu này ngụy trang dữ liệu khi chuyển nó từ môi trường này sang môi trường khác, chẳng hạn như từ sản xuất sang thử nghiệm. Nó phổ biến với các tổ chức liên tục triển khai phần mềm và thực hiện tích hợp dữ liệu lớn.
Thay thế dữ liệu cột bằng cùng một giá trị cố định. Ví dụ: nếu bạn muốn thay thế “Olivia” bằng “Emma”, bạn phải thực hiện điều đó trong tất cả các bảng được liên kết, không chỉ trong bảng mà bạn hiện đang ẩn.
Điều này được sử dụng để tiết lộ thông tin về các mẫu và xu hướng trong tập dữ liệu mà không chia sẻ bất kỳ chi tiết nào về những người thực tế được đại diện ở đó.
Dưới đây bạn có thể tìm thấy bảy kỹ thuật che dấu dữ liệu phổ biến nhất. Bạn có thể kết hợp chúng để đáp ứng các nhu cầu khác nhau của doanh nghiệp của bạn.
Xáo trộn . Bạn có thể xáo trộn và gán lại các giá trị dữ liệu trong cùng một bảng. Ví dụ: nếu bạn xáo trộn cột tên nhân viên, bạn sẽ nhận được thông tin chi tiết cá nhân thực sự của một nhân viên khớp với một nhân viên khác.
Tranh giành . Sắp xếp lại các ký tự và số nguyên của trường dữ liệu theo thứ tự ngẫu nhiên. Nếu ID ban đầu của nhân viên là 97489376, sau khi áp dụng xáo trộn, bạn sẽ nhận được một số giống như 37798649. Điều này bị hạn chế đối với các loại dữ liệu cụ thể.
Loại bỏ . Đây là một chiến lược che dấu đơn giản trong đó trường dữ liệu được gán giá trị null. Phương pháp này bị hạn chế sử dụng vì nó có xu hướng làm hỏng logic của ứng dụng.
thay thế . Dữ liệu gốc được thay thế bằng các giá trị giả nhưng thực tế. Có nghĩa là giá trị mới vẫn cần phải đáp ứng tất cả các ràng buộc miền. Chẳng hạn, bạn thay thế số thẻ tín dụng của ai đó bằng một số khác tuân thủ các quy tắc do ngân hàng phát hành thực thi.
Phương sai số . Điều này chủ yếu áp dụng cho thông tin tài chính. Một ví dụ là che giấu mức lương ban đầu bằng cách áp dụng phương sai +/-20%.
Ngày lão hóa . Phương pháp này tăng hoặc giảm một ngày theo một phạm vi cụ thể, duy trì rằng ngày kết quả đáp ứng các ràng buộc của ứng dụng. Chẳng hạn, bạn có thể tăng tuổi cho tất cả các hợp đồng trong 50 ngày.
tính trung bình . Liên quan đến việc thay thế tất cả các giá trị dữ liệu gốc bằng giá trị trung bình. Chẳng hạn, bạn có thể thay thế từng trường lương riêng lẻ bằng giá trị lương trung bình trong bảng này.
Đây là kế hoạch triển khai mặt nạ dữ liệu gồm 5 bước của bạn.
Trước khi bắt đầu, bạn sẽ cần xác định những khía cạnh nào bạn sẽ đề cập. Dưới đây là danh sách các câu hỏi điển hình mà nhóm dữ liệu của bạn có thể nghiên cứu trước khi tiến hành các sáng kiến che giấu:
Trong bước này, bạn cần xác định kỹ thuật nào hoặc sự kết hợp của các công cụ che giấu dữ liệu phù hợp nhất cho nhiệm vụ hiện tại.
Trước hết, bạn cần xác định loại dữ liệu nào bạn cần che giấu, chẳng hạn như tên, ngày tháng, dữ liệu tài chính, v.v., vì các loại khác nhau yêu cầu thuật toán che giấu dữ liệu chuyên dụng. Dựa vào đó, bạn và nhà cung cấp của bạn có thể chọn (các) thư viện nguồn mở nào có thể được sử dụng lại để tạo ra giải pháp che dấu dữ liệu phù hợp nhất. Chúng tôi khuyên bạn nên chuyển sang nhà cung cấp phần mềm vì họ sẽ giúp bạn tùy chỉnh giải pháp và tích hợp giải pháp đó vào quy trình công việc của bạn trong toàn bộ công ty một cách dễ dàng mà không làm gián đoạn bất kỳ quy trình kinh doanh nào. Ngoài ra, có thể xây dựng thứ gì đó từ con số không để đáp ứng các nhu cầu riêng của công ty.
Có những công cụ che giấu dữ liệu được tạo sẵn mà bạn có thể mua và tự triển khai, chẳng hạn như Oracle Data Masking , IRI FieldShield , DATPROF , v.v. Bạn có thể chọn chiến lược này nếu bạn tự mình quản lý tất cả dữ liệu của mình, bạn hiểu cách thức hoạt động của các luồng dữ liệu khác nhau và bạn có bộ phận CNTT có thể giúp tích hợp giải pháp che dấu dữ liệu mới này vào các quy trình hiện có mà không cản trở năng suất.
Tính bảo mật của dữ liệu nhạy cảm của bạn phần lớn phụ thuộc vào tính bảo mật của các thuật toán tạo dữ liệu giả được chọn. Do đó, chỉ những người được ủy quyền mới có thể biết thuật toán che dấu dữ liệu nào được triển khai, vì những người này có thể thiết kế ngược dữ liệu che giấu thành tập dữ liệu gốc với kiến thức này. Đó là một thực hành tốt để áp dụng phân chia nhiệm vụ. Chẳng hạn, bộ phận bảo mật chọn các thuật toán và công cụ phù hợp nhất, trong khi chủ sở hữu dữ liệu duy trì các cài đặt được áp dụng để che giấu dữ liệu của họ.
Tính toàn vẹn tham chiếu có nghĩa là mỗi loại dữ liệu trong tổ chức của bạn được che giấu theo cùng một cách. Đây có thể là một thách thức nếu tổ chức của bạn khá lớn và có nhiều chức năng kinh doanh và dòng sản phẩm. Trong trường hợp này, công ty của bạn có khả năng sử dụng các thuật toán che dấu dữ liệu khác nhau cho các nhiệm vụ khác nhau.
Để khắc phục sự cố này, hãy xác định tất cả các bảng có chứa ràng buộc tham chiếu và xác định thứ tự bạn sẽ che dữ liệu vì các bảng cha phải được che trước các bảng con tương ứng. Sau khi hoàn thành quá trình tạo mặt nạ, đừng quên kiểm tra xem tính toàn vẹn tham chiếu có được duy trì hay không.
Bất kỳ điều chỉnh nào đối với một dự án cụ thể hoặc chỉ những thay đổi chung trong tổ chức của bạn đều có thể dẫn đến việc sửa đổi dữ liệu nhạy cảm và tạo nguồn dữ liệu mới, dẫn đến nhu cầu lặp lại quy trình che giấu.
Có những trường hợp việc che dấu dữ liệu có thể chỉ là nỗ lực một lần, chẳng hạn như trong trường hợp chuẩn bị một tập dữ liệu huấn luyện chuyên biệt sẽ được sử dụng trong vài tháng cho một dự án nhỏ. Nhưng nếu bạn muốn một giải pháp phục vụ bạn trong một thời gian dài, dữ liệu của bạn có thể trở nên lỗi thời tại một thời điểm. Vì vậy, hãy đầu tư thời gian và nỗ lực vào việc chính thức hóa quy trình tạo mặt nạ để làm cho quy trình diễn ra nhanh chóng, có thể lặp lại và càng tự động càng tốt.
Phát triển một bộ quy tắc che giấu, chẳng hạn như dữ liệu nào phải được che giấu. Xác định bất kỳ trường hợp ngoại lệ hoặc trường hợp đặc biệt nào mà bạn có thể thấy trước vào thời điểm này. Thu thập/xây dựng các tập lệnh và công cụ tự động để áp dụng các quy tắc che dấu này một cách nhất quán.
Cho dù bạn làm việc với nhà cung cấp phần mềm theo lựa chọn của mình hay chọn giải pháp làm sẵn, sản phẩm cuối cùng cần tuân theo các phương pháp hay nhất về che giấu dữ liệu sau:
Dưới đây là danh sách các thách thức mà bạn có thể gặp phải trong quá trình triển khai.
Một tổ chức chăm sóc sức khỏe quốc tế đang tìm cách che khuất thông tin nhận dạng cá nhân nhạy cảm (PII) được trình bày ở nhiều định dạng và nằm trong cả môi trường sản xuất và phi sản xuất. Họ muốn xây dựng một phần mềm che giấu dữ liệu do ML cung cấp có thể khám phá và làm xáo trộn PII trong khi tuân thủ các chính sách nội bộ của công ty, GDPR và các quy định về quyền riêng tư dữ liệu khác.
Nhóm của chúng tôi ngay lập tức nhận thấy những thách thức sau:
Do sự đa dạng lớn này, nhóm của chúng tôi muốn đưa ra một bộ chính sách và quy trình hướng dẫn các chủ sở hữu tập dữ liệu khác nhau về cách che dấu dữ liệu của họ và sẽ làm cơ sở cho giải pháp của chúng tôi. Chẳng hạn, một người nào đó có thể đưa ra danh sách các điểm dữ liệu mà họ muốn làm xáo trộn, dù là một lần hay liên tục, và giải pháp, dựa trên các nguyên tắc này, sẽ nghiên cứu dữ liệu và chọn các kỹ thuật che giấu thích hợp rồi áp dụng chúng.
Chúng tôi tiếp cận dự án này bằng cách khảo sát cảnh quan thông qua các câu hỏi sau:
Sau khi trả lời những câu hỏi này, chúng tôi đề xuất cung cấp dịch vụ che dấu dữ liệu chủ yếu vì khách hàng có quá nhiều nguồn dữ liệu ngay từ đầu và có thể mất nhiều năm để xử lý tất cả.
Cuối cùng, chúng tôi đã cung cấp các dịch vụ che giấu dữ liệu với sự trợ giúp của một công cụ dựa trên ML tùy chỉnh có thể thực hiện bán tự động việc che giấu dữ liệu theo bốn bước:
Giải pháp che giấu dữ liệu này đã giúp khách hàng tuân thủ GDPR, giảm đáng kể thời gian cần thiết để hình thành môi trường phi sản xuất và giảm chi phí chuyển dữ liệu từ sản xuất sang hộp cát.
Những nỗ lực của bạn không dừng lại khi dữ liệu bí mật bị che giấu. Bạn vẫn cần phải duy trì nó theo thời gian. Dưới đây là các bước sẽ giúp bạn trong sáng kiến này:
Che dấu dữ liệu sẽ bảo vệ dữ liệu của bạn trong môi trường phi sản xuất, cho phép bạn chia sẻ thông tin với các nhà thầu bên thứ ba và giúp bạn tuân thủ. Bạn có thể tự mua và triển khai giải pháp che giấu dữ liệu nếu bạn có bộ phận CNTT và kiểm soát các luồng dữ liệu của mình. Tuy nhiên, hãy nhớ rằng việc triển khai mặt nạ dữ liệu không đúng cách có thể dẫn đến những hậu quả khá khó chịu. Dưới đây là một số trong những cái nổi bật nhất:
Do đó, nếu một công ty không tự tin vào khả năng của mình trong việc thực hiện các sáng kiến che giấu dữ liệu, thì tốt nhất bạn nên liên hệ với nhà cung cấp bên ngoài, họ sẽ giúp chọn các kỹ thuật che giấu dữ liệu phù hợp và tích hợp sản phẩm cuối cùng vào quy trình làm việc của bạn mà ít bị gián đoạn nhất.
Ở lại bảo vệ!
Xem xét để thực hiện một giải pháp mặt nạ dữ liệu? Hãy liên lạc ! Chúng tôi sẽ giúp bạn ưu tiên dữ liệu của mình, xây dựng công cụ che giấu tuân thủ và triển khai công cụ đó mà không làm gián đoạn quy trình kinh doanh của bạn.