paint-brush
ML 시스템을 위한 FaaS 아키텍처 및 검증 가능한 공정성~에 의해@escholar
285 판독값

ML 시스템을 위한 FaaS 아키텍처 및 검증 가능한 공정성

너무 오래; 읽다

이 섹션에서는 기계 학습 내에서 공정성 감사에 대한 신뢰를 보장하기 위한 혁신적인 시스템인 FaaS(Fairness as a Service)의 아키텍처를 설명합니다. 토론에는 위협 모델, 프로토콜 개요 및 필수 단계(설정, 암호화 생성 및 공정성 평가)가 포함됩니다. FaaS는 암호화 증명과 검증 가능한 단계를 통합하여 ML 환경에서 공정한 평가를 위한 안전한 기반을 제공하는 강력한 접근 방식을 도입합니다.
featured image - ML 시스템을 위한 FaaS 아키텍처 및 검증 가능한 공정성
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture

이 문서는 CC BY 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다 .

저자:

(1) 영국 서리대학교 에산 토레이니(Ehsan Toreini);

(2) 런던 로얄 홀로웨이 대학교 마리암 메흐네자드(Maryam Mehrnezhad);

(3) 버밍엄 대학교 Aad Van Moorsel.

링크 표

개요 및 소개

배경 및 관련 작업

FaaS 아키텍처

구현 및 성능 분석

결론

감사의 말과 참고자료

3 FaaS 아키텍처

이 섹션에서는 시스템 아키텍처(그림 1)를 제시하고 해당 기능을 설명합니다. FaaS 아키텍처에는 세 가지 역할의 이해관계자가 포함됩니다. A) ML 시스템: 데이터와 ML 알고리즘을 소유하는 시스템, B) 공정성 감사 서비스: ML 시스템의 공정한 성능을 계산하는 서비스, C) Universal Verifier: 누구나 감사 프로세스를 검증할 기술적 전문성과 동기를 갖춘 사람.

3.1 위협 모델

각 프로토콜 역할(ML 시스템, 공정성 감사 서비스 및 범용 검증자)(그림 1)을 구현하는 당사자의 보안 설계 및 구현은 서로 독립적입니다. 역할 간에 발생하는 상호 통신은 당사자 간의 신뢰를 가정하지 않습니다. 따라서 모든 주장에는 검증 증거(ZKP를 사용함)가 수반되어야 합니다. 우리는 감사 시스템이 다양한 공격에 취약하고 신뢰할 수 없다고 가정합니다. 따라서 공정성 감사 시스템에 저장된 데이터는 모든 단계에서 암호화되고 변조 방지되며 검증 가능해야 합니다. 또한 ML 시스템과 공정성 감사자 간의 통신 채널이 보호되지 않는다고 가정합니다. 따라서 중요한 데이터는 전송이 시작되기 전에 암호화되어야 합니다. 그러나 프로토콜 시퀀스의 사전 설정 단계에서 암호화 기본 요소에 대한 합의가 이루어집니다.


FaaS에서는 ML 시스템이 데이터세트 샘플의 원본 레이블에 대한 암호를 정직하게 전송한다고 가정합니다. 이러한 가정에 반대하는 주장을 펼치고 ML 시스템이 데이터세트의 실제 레이블을 수정하여 감사자 서비스를 속이고 더 나아가 검증자를 속이려고 할 수도 있다고 논의할 수 있습니다. 예를 들어 ML 시스템은 감사자가 알고리즘이 공정하다고 결론을 내릴 수 있도록 실제 레이블과 예측 레이블의 암호를 가능한 한 서로 유사하게 제공합니다. 이는 추가 연구를 위한 흥미로운 영역입니다. 예를 들어, 실제 레이블의 암호를 독립적으로 감사 서비스에 제공하여 해결할 수 있습니다. 예를 들어 검증자는 ML 시스템에 제공하는 데이터 세트를 소유할 수 있습니다. 그런 다음 검증자는 실제 레이블에 대해 원하는 값을 별도로 결정하고 이를 감사자 서비스에 제공합니다. 이러한 방식으로 ML 시스템이 감사자에게 보내는 데이터를 조작하는 방법은 레이블 중 일부가 다른 곳에서 오기 때문에 훨씬 덜 명확합니다.


역할의 내부 보안은 FaaS를 뛰어넘습니다. ML 시스템 자체는 데이터와 알고리즘을 보호하기 위해 추가 조치를 고려해야 합니다. 우리는 ML 시스템이 데이터와 예측을 정직하게 제시한다고 가정합니다. 윤리적으로 수행하려는 인센티브는 공정성 감사 프로세스에 참여할 때 부정직한 것과 대조되기 때문에 이는 합리적인 가정입니다. 이에 대해서는 토론 섹션에서 더 자세히 논의됩니다.


표 2: 원본 데이터 항목의 3비트 표현에 가능한 순열.

3.2 프로토콜 개요

주요 보안 프로토콜 순서는 ML 시스템과 공정성 감사 서비스(약식 감사자) 사이에 있습니다. 아키텍처에서 세 가지 역할을 제안하지만 의사소통은 주로 위의 두 역할 사이에서 이루어지며 모든 범용 검증자는 계산에 이의를 제기하려는 경우 감사 서비스(공정성 위원회를 대표함)로 전환할 수 있습니다.


ML 시스템은 ML 알고리즘의 구현과 실행을 담당합니다. 이는 데이터를 입력으로 갖고 출력을 형성하는 일부 예측(사용 사례 및 목적에 따라)을 수행합니다(그림 1). 공정성 감사자 서비스는 ML 시스템으로부터 정보를 수신하고 공정성 지표를 계산하여 공정성 성능을 평가합니다. 그런 다음 측정항목 결과를 ML 시스템으로 다시 반환합니다. 또한 공개 검증을 위해 공정성 게시판에 계산 결과를 게시합니다. 공공 공정성 게시판은 공개적으로 액세스할 수 있는 읽기 전용 공정성 게시판입니다(예: 웹사이트). 감사자는 공정성 위원회에 데이터(및 충분한 증거)를 추가할 권리만 갖습니다. 또한 감사자는 데이터를 게시하기 전에 데이터의 진위성, 정확성 및 무결성을 확인합니다.

3.3 프로토콜 순서

이 프로토콜은 설정, 암호 생성 및 공정성 메트릭 계산의 세 단계로 구성됩니다.

3.3.1 1단계: 설정

이 단계에서는 ML 시스템과 감사자가 초기 설정에 동의합니다. 우리는 곱셈 순환 그룹 설정(즉, 디지털 서명 알고리즘(DSA)과 유사한 그룹[18])에서 프로토콜 기능을 가정하지만, 이는 또한 추가 순환 그룹(즉, 타원 곡선 디지털 서명 알고리즘(ECDSA)과 같은 그룹[18]에서도 기능할 수 있습니다. ]). 감사자와 ML 시스템은 프로토콜이 시작되기 전에 (p, q, g)에 공개적으로 동의합니다. p와 q가 q|(p − 1)인 두 개의 큰 소수라고 가정합니다. 곱셈 순환 그룹(Z * p )에서 Gq는 소수 차수 q의 하위 그룹이고 g는 해당 생성기입니다. 단순화를 위해 DDH(Decision Diffie-Hellman) 문제가 범위를 벗어났다고 가정합니다[31].

다음으로 ML 시스템은 DSA 또는 ECDSA를 사용하여 공개/개인 쌍 키를 생성하고 공정성 보드에 공개 키를 게시합니다. 개인 키 쌍의 보호는 ML 시스템의 보안 아키텍처에 따라 달라지며 개인 키는 산업 표준 방식(예: 온보드 보안 메모리 모듈 사용)에 따라 안전하게 저장된다고 가정합니다.


암호화 테이블: 초기 합의 후 ML 시스템은 테스트 데이터 세트의 샘플 수에 해당하는 n 행이 있는 암호화 테이블을 생성합니다. 이 문서의 나머지 부분에서는 이 테이블을 암호화 테이블이라고 부릅니다. ML 시스템이 테스트 세트의 샘플 수를 공개하지 않으려는 경우 감사자와 ML 시스템은 공개적으로 n에 동의할 수 있습니다. 이 경우 n은 범용 검증자가 결과에 만족할 만큼 충분히 커야 합니다.


암호화 테이블의 각 행에는 (1) 보호된 그룹 멤버십 상태, (2) 실제 레이블, (3) ML 모델에 의해 예측된 레이블이라는 세 가지 매개변수가 요약되어 있습니다. 각 행에는 정확성에 대한 증거와 함께 세 가지 매개변수의 암호화된 형식이 포함되어 있습니다. 설정 단계의 암호화 테이블은 표 3에 나와 있습니다. 가장 간단한 경우 각 매개변수는 이진수입니다. 따라서 결합된 매개변수는 총 8개의 순열을 생성합니다. 설정 단계에서는 각 데이터 샘플에 대한 8개의 가능한 순열과 해당 증명을 모두 포함하는 테이블이 생성됩니다. 순열의 전체 구조는 표 2에 나와 있습니다. 각 행은 4가지 속성을 충족합니다. (a) 단일 암호가 8가지 가능한 순열 중 하나의 암호화된 버전인지 쉽게 확인할 수 있습니다. (b) 검증 가능하지만 하나의 단일 암호가 선택되면 현재 암호가 어떤 순열을 나타내는지 확인할 수 없습니다. (c) 단일 행에서 선택된 두 개의 암호에 대해 누구나 서로 구별할 수 있으며, (d) 일련의 암호가 임의로 선택됩니다. 각 행에서 세트로, 세트에 각 "순열"에 대한 사례 수를 쉽게 확인할 수 있습니다.


암호 테이블 함수의 생성은 다음 순서에 따라 이루어집니다.


단계 (1): n개의 샘플 각각에 대해 시스템은 무작위 공개 키 g xi를 생성합니다. 여기서 xi는 개인 키이고 xi ∈ [1, q − 1]입니다.


단계 (3): 이진 인코딩의 10진수 값과 동일한 해당 열 번호를 암호 테이블에서 선택하여 공정성 감사 테이블을 완성합니다(표 2 참조).


마지막으로 생성된 공정성 감사 테이블은 ML 시스템에 의해 디지털 서명된 후 공정성 감사 서비스를 통해 전송됩니다.

3.3.3 3단계: 공정성 평가

먼저 공정성 감사 서비스는 공정성 감사 테이블을 받아 전자서명과 ZKP를 검증하고 그 내용을 공정성 게시판에 게시한다.


이 시점에서는 이러한 방정식 구성요소 각각을 확장하여 함께 비교합니다.


이 프로세스는 특히 공정성 감사 테이블의 데이터 샘플 수가 많은 경우 계산량이 많습니다. 이 경우 공정성 감사자는 순열 번호 선언을 ML 시스템에 위임할 수 있습니다. 감사자는 여전히 공정성 감사 테이블과 관련 ZKP를 받습니다. 공정성 감사 테이블을 공정성 보드에 저장하고 공정성을 계산하며 선언된 순열 번호의 정확성을 확인할 수 있습니다. 범용 검증자는 공정성 보드를 통해 공개적으로 액세스할 수 있는 공정성 감사 테이블을 통해 공정성 지표 계산을 검증하기 위해 동일한 단계를 따를 수 있습니다.


이 단계가 끝나면 감사자는 획득한 수치를 사용하여 공정성 측정 기준을 계산하고 정보를 공개적으로 공개합니다. 각 순열의 수는 보호 속성이 있는 각 그룹에 대한 ML 알고리즘의 전체 성능을 나타냅니다. 표 4는 순열과 이것이 ML 시스템의 공정성 지표와 어떻게 관련되는지 보여줍니다. 암호표와 결과는 공정성 게시판에 게시됩니다(그림 1).