Generative AI 모델링이 오작동으로 이어질 수 있는 방법
여기에 있는 의견과 토론은 전적으로 내 의견이며 Meta나 내 팀의 견해나 내부자 또는 독점 지식을 전혀 반영하지 않습니다.
저는 Meta의 Generative AI 부서에서 일하고 있습니다. 구체적으로는 메타용 텍스트 → 이미지 생성 작업을 하고 있습니다. 우리의 첫 번째 제품은 여기에서 출시 되었으며 여기에서 직접 사용해 볼 수 있습니다. "2024년 독일인 가족"이라는 메시지를 표시했을 때 다음과 같이 확대된 이미지가 표시되었지만 하단에는 다른 이미지 3개도 표시되었습니다.
다른 제안 중 2개를 확대한 결과는 다음과 같습니다.
보시다시피 여기에는 가족을 대표하는 인종적 다양성이 있습니다. 그러나 그것은 "전통적으로" 독일 가족이 무엇인지에 대해 배제함으로써 그렇게 하지 않습니다.
그 사이에 몇 가지 예가 더 있습니다:
다음은 역사적 인물을 나타내는 또 다른 메시지입니다.
물론 부족한 점이 많고, 저를 포함한 팀원들이 이를 개선하기 위해 노력하고 있습니다. 예를 들어 위의 프롬프트는 "인디언"이 인도 출신의 사람들과 미국의 "원주민 인디언" 모두를 의미하는 것으로 생각했습니다.
그러나 지난주 Google의 Gemini 실패에 주목했다면 모델의 결과는 위와 같지 않았고 훨씬 더 많은 우려 사항이 있었습니다. 다음은 이러한 함정 중 일부를 설명하는 스레드입니다.
Twitter에서 전체 스레드에 액세스할 수 없는 경우 압축되지 않은 스레드는 다음과 같습니다 .
화제를 불러일으킨 더 많은 이미지가 있지만 이것만으로도 다음과 같은 결론을 내리기에 충분합니다.
- Google의 Gemini 이미지 생성은 미국 건국의 아버지, 바이킹, 교황과 같은 역사적, 공인을 포함하여 백인(백인)을 생성하는 데 어려움을 겪었습니다.
- 줄루족 전사나 사무라이의 사례에서 알 수 있듯이 다른 종족의 경우 그렇게 하는 데 반드시 어려움을 겪을 필요는 없었습니다.
이는 "깨어난 기업"에 의한 "백인"의 "삭제"에 대한 분노 , Gemini가 어떻게 "유색 인종을 나치"로 보여줄 것인지에 초점을 맞추려는 다른 언론 간행물 또는 문제는 균형을 벗어나거나 "자유주의적 편견"을 반박하고 있습니다 . 이러한 반응은 종종 정치적 노선을 따르며, 여기서 이에 대해 자세히 조사하려는 의도는 없습니다.
그러나 제가 긍정적으로 기여할 수 있는 것은 이 특정 공간에서 작업하는 엔지니어로서 모델 개발, 특히 제너레이티브 AI에서 개발 주기가 어떻게 작동하는지 설명하고 이를 사용하여 위와 같은 출력이 어떻게 지배적이 될 수 있는지 (추측적으로) 이해하는 것입니다. 나는 기술적 전문 용어를 사용하거나 신경망의 내부를 설명하고 싶지 않습니다. 여기에 관련이 있다고 생각하지도 않습니다. 여기서 다시 강조하고 싶은 것은 독점 정보가 아니어야 하며, 저는 Google의 문제나 내부 업무에 대한 내부 지식이 없습니다.
데이터가 왕이다
일부 단계를 살펴보기 전에 매우 중요한 불변성 하나를 설명하고 싶습니다. 모델은 훈련된 데이터만큼만 우수합니다 . 그렇다고 해서 모델의 다른 구성 요소(예: 아키텍처)가 중요하지 않거나 덜 중요하다는 의미는 아닙니다. 실제로 지난 몇 년 동안 LLM, 이미지 생성, 비디오 생성 등에서 이 분야의 기하급수적인 성장을 가속화한 기계 학습 분야에 대한 훌륭한 연구가 있었습니다. 그러나 진보에 관계없이 모든 모델이 직면하는 한 가지 한계는 다음과 같습니다. 좋은 대표 데이터 세트에 대해 훈련되지 않은 경우 원하는 출력을 제공하지 않습니다.
기계 학습의 개념에 익숙하지 않은 사람들을 위해 모델은 특정 개념(예: 개)의 여러 예(긍정적(포함) 및 부정적(포함하지 않음) 모두)를 제공(또는 "훈련")합니다. 무작위 입력 모델은 해당 개념의 인스턴스가 포함되어 있는지 여부를 높은 신뢰도로 예측할 수 있어야 합니다. 특정 사용 사례(예: 개의 좌표 식별)에 대해 많은 보강이 수행될 수 있습니다.
생성적 AI ML 모델의 개발 주기
대규모 훈련 (사전 훈련이라고도 함): 개를 식별하는 것은 하나의 예일 뿐입니다. 여기서 일반화된 문제는 텍스트가 주어지면 해당 이미지를 생성하는 것입니다. 그렇게 하기 위해 모델은 먼저 특정 단어의 의미를 식별("학습")해야 합니다. 따라서 각 기준(“개념”)의 많은 예를 살펴봄으로써 코끼리, 남자, 여자, 개, 산 등을 인식해야 합니다. 그러나 모델이 각 시나리오에 대해 좋은 이미지를 생성하려면 가장 일반적인 개념뿐만 아니라 덜 사용되고 덜 친숙한 개념도 포함하는 폭넓은 개념을 이해해야 합니다. 합리적으로 높은 신뢰도를 갖고 이를 수행하려면 대량의 데이터(수백만에서 수십억)로 모델을 훈련해야 합니다. 이 단계를 사전 훈련이라고 합니다. 여기서는 대규모로 수집된 데이터를 통해 모델이 원하는 출력의 충분한 품질을 생성하는 데 도움이 됩니다.
수집된 데이터를 기반으로 한 모델 학습의 결과 중 하나는 모델이 모든 편향과 함께 훈련 세트의 패턴을 학습한다는 것입니다. 따라서 개 훈련 데이터 세트에 시바견 과 코기스(정말 귀여운 개)의 이미지만 있는 경우 생성된 모든 개는 이러한 품종처럼 보일 것입니다. 따라서 위에서 설명한 대로 모델 출력이 특정 유형에 "과적합"되지 않도록 하려면 소스에 다양성을 추가해야 합니다. 따라서 위의 예에서는 훈련 데이터에 균일하게 샘플링되어 반영되기를 원하는 주요 품종의 양이 충분한지 확인하려고 합니다.
이것은 인간에게도 적용됩니다. 특정 개 품종을 과도하게 대표하는 것이 바람직하지 않은 것처럼 인간의 경우도 마찬가지입니다. 그러나 인간의 경우 품종과 달리 이러한 구분선은 성별, 국적, 민족, 인종에 걸쳐 발생합니다. 이상적으로 우리는 모델 출력에서 지배적인 특정 특성을 피하기 위해 사전 훈련 단계에서 이러한 차원에 걸쳐 상대적인 균일성을 반영하기를 원합니다.
따라서 사전 훈련 단계에서 모델은 개념(인간, 애완동물, 야생 동물, 자연, 가구, 풍경 등)에서 다양성을 찾으려고 노력하면서 엄청난 양의 데이터를 수집한 다음 이러한 개념(품종, 국적, 차원) 내에서 다양성을 찾으려고 노력합니다. ).미세 조정(Fine-tuning) : 그러나 방대한 규모의 데이터로 모델을 훈련한 후 마지막 단계에서는 매우 작은 고품질 데이터로 "미세 조정"됩니다. 여기서 작은 변화는 모델 출력에 공격적인 변화를 가져올 수 있습니다 . 따라서 시각적 품질, 배포를 변경하려면 여기가 적합합니다. 그러나 규모가 크다는 점을 고려하면 사전 훈련 데이터가 여전히 지배적이며 모델 훈련의 어느 단계에서 모델 출력이 얼마나 영향을 받는지 확인하기가 어렵습니다.
안전성 : 위의 이해는 대부분 모델 출력의 핵심 단계와 중요성 측면을 설명하는 데 중점을 두었습니다. 그러나 우리는 편견과 법적 제약이 실제로 미치는 영향을 이해하고 모델이 부정적인 영향을 미치지 않도록 해야 합니다. 법이 명시되어 있기 때문에 법을 따르는 것이 상대적으로 쉬울 수 있지만(법원에서 알 수 있듯이 여전히 해석의 여지가 많음에도 불구하고), 불법은 아니지만 잠재적으로 해로울 수 있는 다른 문제를 다루는 것은 많은 논란을 일으키고 정치적 분열을 드러냅니다. 불법은 아니지만 잠재적으로 유해한 후자 종류의 문제를 해결하기 위해 " AI 윤리 " 또는 " 책임 있는 AI "라고 불리는 AI 분야가 등장했습니다.
위의 편향 예에서는 훈련 데이터 세트에 남성과 여성의 대표 샘플이 필요하다고 말하는 것이 비교적 논란의 여지가 없습니다. 또는 인도, 중국, 미국, 영국, 브라질, 나이지리아 출신의 사람들이 인간을 반영합니다. 상대적으로 논란의 여지가 없는 유사한 다른 완화 방법은 누드(완전히 불법이 아닌 성인 및 어린이의 불법)를 방지하고 개인의 개인 정보(금융, 건강 포함)를 동의하지 않고 공개하지 않는 것, IP 침해 가능성을 방지하는 것입니다. 하지만 책임 있는 AI 분야는 이를 뛰어넘는다. '유해한 고정관념'을 지속시키지 않는다는 목표도 있기 때문이다.
여기에 예가 있습니다. 모델에게 의사와 간호사의 이미지를 생성하도록 요청했는데 100번 중 99번은 남자는 의사로, 여자는 간호사로 표시된다면 이는 확실히 바람직하지 않은 사회적 고정관념을 지속시키는 것입니다.
몇 가지 다른 예 - 모델에 무슬림 남성을 생성하도록 요청하면 결국 폭력적인 테러리스트가 표시될 수 있습니다.
모델이 왜 그렇게 하겠습니까? 모델은 훈련 데이터만큼 훌륭하다는 점을 기억하세요. 그리고 이는 실제 분포(예: 종종 사회적 제약으로 인해 의사에 비해 간호 분야의 여성이 더 많음), 다양한 영역의 특정 단어 정의(특정 그룹의 행위와 관련된 폭력적인 극단주의 및 다른 사람이 아님) 또는 특정 지역의 특정 그룹에 대한 편향된 미디어 보도(예: 중국 식견/박쥐) 모델이 소비하는 데이터는 이러한 편향을 많이 증폭시킬 것입니다. 따라서 그러한 데이터에 대해 훈련된 모델은 거의 항상 여성을 간호사로, 남성을 의사로, 무슬림 남성을 폭력적인 극단주의자로, 중국인/아시아인을 박쥐를 먹는 사람으로 생성할 가능성이 높습니다.
이를 모델과 데이터의 "무의식적" 편향 이라고 합니다. 이 문제를 해결해야 합니까? 법적으로는 그렇지 않습니다(일부 관할권에서는 그럴 수도 있지만). 사실상? 그것은 까다롭고 꽤 논란의 여지가 있는 질문입니다. 해로운 고정관념이 증폭되는 것을 방지하기 위한 분명한 직감은 "예"일 것입니다. 그러나 특히 결과가 경험적 사실을 반영하는 경우(사회적 편견/차별의 결과인 경우에도) 결과를 왜곡하기 위해 인간이 얼마나 많이 개입해야 하는지에 대한 이의가 있을 수 있습니다. 우리가 그렇게 하는 것이 바람직하다고 동의하더라도 인간은 그렇게 할 수 있으며, 제한 사항이 있다면(예: 자신의 편견) 무엇입니까? 개입하면 부정적인 부작용도 있을 수 있나요? 어쨌든 앞서 언급했듯이 이 글의 목적은 그러한 논의에 개입하는 것이 아니라 단지 몇 가지 논란과 근본적인 주장을 인정하는 것입니다.
이러한 문제에 대한 귀하의 입장이 무엇이든, 생성 AI 모델(텍스트 및 이미지 모두)을 개발하는 대부분의 주요 기업(메타 포함)은 "고쳐야 합니까?"라는 질문에 긍정적으로 대답하고 조치를 취하고 있다고 말할 수 있습니다. 이를 완화하기 위한 많은 단계가 있습니다. 방법에 대한 몇 가지 예로는 유해한 페어링을 감지하고 제거하여 데이터를 정리하거나 미세 조정 단계에서 바람직하지 않은 특정 결과로부터 모델을 공격적으로 조정하여 인터넷 코퍼스를 수집하여 도달하는 결과를 변경하는 방법이 있습니다.
그 결과, 구글 이미지 검색 결과에서 볼 수 있듯이 매우 문제가 될 수 있는 프롬프트가 매우 고르게 분포되어 있음을 알 수 있습니다.
위에서 볼 수 있듯이 4개의 이미지가 출력됩니다. 두 역할 모두에서 남성과 여성의 분포가 충분히 좋습니다.
법적 및 개인 정보 보호 완화: 위의 내용은 무작위 직원이 자신의 편견을 주입하고 불변 특성을 사용하여 원하는 방식으로 모델 출력을 변경하는 것과 관련하여 일부 개인에게 많은 우려를 불러일으킬 수 있습니다. 그러나 모든 주요 기술 회사에는 거대한 법률 부서가 있으며 그 중 일부는 모델 출력 생성에 매개변수를 도입하는 동시에 법적 위험을 검토하고 한계를 넘어서는 업무를 전담하는 직원을 두고 있습니다. 그들은 그걸 어떻게 햇어? 그들은 모든 코드를 읽나요? 아니요.
그러나 개발이 대규모로 시작되기 전, 프로덕션으로 출시되기 훨씬 전에 개발자, 제품 관리자, 데이터 과학자, 관리자는 목표 달성 방법, 이로 인해 발생할 수 있는 편견, 발생할 수 있는 개인 정보 보호 문제에 대한 비전을 제시해야 합니다. 허용되지 않는 데이터에 액세스하거나 노출하는 행위, 논란의 여지가 있는 매개변수를 사용하는 행위. 그렇다면 모델에 인종을 인코딩할 수 있을까요? 국적은 어떻습니까? 이런 질문마다 회사에 따라 답변이 다르고, 메타 내에서 어떤 결정도 공개할 수 없지만, 각 사항은 법률 대리인이 만족할 수 있도록 설계 단계 자체에서 고려되고 답변됩니다. 이를 충족하지 못하면 출시가 방해되므로 출력이 좋더라도 배송이 불가능합니다.모델 평가 : 최종적이고 매우 중요한 단계인 평가가 있습니다. 결국, 이러한 크고 복잡한 모델을 개발하는 데 엄청난 고통을 겪었다면 테스트해보고 싶지 않겠습니까? 이를 수행하는 방법에는 여러 가지가 있습니다. 그 중 다수는 수동이고 일부는 자동이지만 매우 일반적인 방법은 생성된 일부 출력을 평가자 집합에게 보내고 시각적 품질, 신속한 충실도 및 품질과 같은 일부 차원을 통해 출력을 평가하도록 요청하는 것입니다. 유해한 상호작용도 있을 수 있습니다. 방법은 팀과 회사에 따라 다르지만 일반적으로 출시하려면 이전 버전보다 성능이 더 좋다고 확신하기 위해 일부 내부 측정항목을 충족해야 합니다. 더욱이 " 가드레일 "이 있습니다. 즉, 개선할 필요는 없지만 출시를 위해 되돌릴 수는 없습니다. 유해한 콘텐츠 생성은 일반적으로 가드레일입니다. 모든 모델 버전은 다른 필수적이고 수익성 있는 차원이 개선되더라도 유해한 콘텐츠 생성 가능성이 실수로 증가하지 않도록 해야 하기 때문입니다.
Google에서는 무슨 일이 일어났을 것 같나요?
이제 Generative AI 이미지 생성 모델을 개발하는 데 필요한 모든 부분을 이해했으므로 문제가 어디서 시작되었는지 이해하는 것이 좋습니다. 안전 계층에 역할이 있다는 것은 매우 분명합니다. 결국 Google의 결과는 인종과 관련된 일부 매개변수를 조정한 것으로 보입니다. 내 작업을 바탕으로 다음과 같은 가설을 세웠습니다.
몇 가지 일반적인 프롬프트를 보장하기 위해 실험이 진행 중이었습니다. 소수자를 생략하고 백인만 생산하지 않았습니다.
이 실험은 적극적으로 결과를 얻기 위해 미세 조정 계층에서 실행되었습니다.
일반적으로 하나의 데이터 세트가 완전히 지배적이지 않도록 일부 비율/비율로 데이터 세트를 샘플링합니다.
실수로 이것이 제대로 설정되지 않았기 때문에 미세 조정된 과적합에서 백인이 없는 데이터 세트로 다른 이미지가 희석되었습니다.
결국 일부 백인에게 표시되는 몇 가지 사례는 사전 훈련 데이터 세트에 다행히도 여전히 인종 및 민족적 다양성이 있기 때문입니다.
이것이 나의 기술적 평가이며, 독자들이 모델 개발 프로세스의 일부, 어려운 질문을 어떻게 해결하는지, 전체 프로세스가 실수에 얼마나 민감한지 이해하기를 바랍니다. 여기서는 유해한 고정관념 및 방법론을 수정하는 것에 대한 논쟁의 여지가 있는 토론, 누가 "비난"해야 하는지, 그리고 가장 중요하게는 그렇게 잘못된 모델이 (아마도) 엄격한 모델 평가를 어떻게 통과하는지, 그리고 배송 전 법무팀을 포함하여 몇 가지 부분을 여기서 다루지 않았습니다. 우주에서 가장 큰 골리앗 중 하나입니다. 다음 게시물에서는 몇 가지 가설을 바탕으로 마지막 부분을 다루겠습니다(물론 내부자 정보는 전혀 없습니다).
여기에 있는 의견과 토론은 전적으로 저의 의견이며, Meta나 저희 팀의 견해가 전혀 반영되지 않습니다. 저는 내부 지식이 없으며 공유된 정보 중 메타 독점 정보는 없으며 모델 수명 주기의 다양한 단계는 표준 업계 관행이며 온라인에서 널리 사용할 수 있습니다.
여기에도 게시되었습니다.