paint-brush
ChatGPT가 스스로를 비난할 것인가? 기자들이 참여하고 ChatGPT가 스스로를 방어합니다.~에 의해@anywhichway
1,141 판독값
1,141 판독값

ChatGPT가 스스로를 비난할 것인가? 기자들이 참여하고 ChatGPT가 스스로를 방어합니다.

~에 의해 Simon Y. Blackwell24m2023/01/31
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

ChatGPT와 같은 AI 훈련을 위해 공개적으로 접근 가능한 데이터를 사용하는 것과 관련된 여러 소송이 있습니다. 마이크로소프트, 깃허브(GitHub), 오픈AI(OpenAI)가 저작권 침해 혐의로 고소당했다. ChatGPT가 생성하는 코드는 새로운 것인가요, 아니면 단순히 파생된 것인가요? ChatGPT는 코드 생성을 위해 훈련하는 데 사용되는 소스 코드의 라이센스 계약을 위반합니까?

People Mentioned

Mention Thumbnail
featured image - ChatGPT가 스스로를 비난할 것인가? 기자들이 참여하고 ChatGPT가 스스로를 방어합니다.
Simon Y. Blackwell HackerNoon profile picture

최근 기사에서는 ChatGPT의 코드 생성 기능에 대해 설명했습니다. 이 기사에서는 ChatGPT 교육 시 저작권이 있는 코드 사용에 대한 책임을 살펴봅니다.


현재 ChatGPT와 같은 AI 훈련을 위해 공개적으로 접근 가능한 데이터를 사용하는 것과 관련된 여러 소송이 있습니다. ChatGTP는 일반적인 질문에 답할 수 있기 때문에 저작권 위반 책임 문제와 관련하여 조사하기로 결정했습니다.


먼저 몇 가지 법적 배경과 읽을거리를 제공한 다음 ChatGPT와의 대화 전체 내용을 녹취합니다.

소송 및 법적 배경

첫째, 저는 변호사가 아닙니다. 철학 분야의 학문적 배경과 직업적 배경은 소프트웨어 개발자이자 기술 경영자입니다. 현재 법적 상황에 대한 나의 평가는 다음과 같습니다.


적어도 세 가지 주요 소송이 진행 중입니다.


  1. Microsoft, GitHub 및 OpenAI는 소스 코드에 첨부된 오픈 소스 라이선스에서 요구하는 속성을 포함하지 않고 코드를 생성하도록 Copilot 뒤의 생성 AI를 교육하는 데 저작권이 있는 오픈 소스 소프트웨어 소스 코드를 사용하여 저작권 침해 혐의로 고소당하고 있습니다.
  2. Midjourney와 StabilityAI는 자신의 이미지를 웹에서 스크랩하여 교육에 사용한 수백만 명의 아티스트의 권리를 근거로 저작권 침해 혐의로 고소당하고 있습니다.
  3. Getty Images는 이미지를 사용하고 해당 예술 작품을 상업적 목적으로 사용하기 위한 적절한 라이센스 비용을 지불하지 않은 이유로 Stability AI를 별도로 고소하고 있습니다. 이는 저작권 침해 주장과는 다릅니다.


Tech Crunch 에서 Greg Rutkowski는 "검과 빛나는 마법의 불을 가진 마법사가 맹렬한 용 Greg Rutkowski와 싸운다"와 같은 텍스트를 입력하면 원본 작업과 매우 유사해 보이는 이미지가 생성되어 수입이 위협받을 것이라는 사실에 대해 불평했습니다. 겉으로 보기에는 그럴 것 같습니다. 하지만 일부에서는 NFT 예술 작품 제작을 통해 아티스트가 확실히 독창적인 예술 작품에 대해 더 많은 것을 요구할 수 있다고 주장할 수도 있습니다. 또한 스타일은 역사적으로 보호하기 어려운 것이었습니다. 그러나 딥 페이크(효과적으로 명시적인 일치)를 생성하는 AI의 능력을 고려할 때 이 영역은 아마도 사전에 재탐색되어야 할 것입니다. 같은 스타일이 되려면 얼마나 가까워야 하나요?


Bloomberg 기사 에서는 AI의 출력이 단순히 파생적인 것인지 아니면 본질적으로 변형적인 것인지, 즉 실질적으로 다른 것인지가 핵심 문제라고 지적합니다. Google이 운영 체제에서 핵심 Oracle Java API를 활용한 유명한 사례에서 법원은 Goolge가 혁신적인 제품을 생산했기 때문에 사용을 허용했다고 판결했습니다. AI 생성 코드에도 동일한 원칙이 적용될 수 있습니다.


FTC는 이미 AI 시스템이 "부당한 데이터", 즉 허가나 동의 없이 얻은 데이터로 훈련된 사건을 추구하여 승소했습니다 . 물론 이는 이미 게시된 데이터가 아니라 사용자 얼굴 이미지와 같은 사용자 데이터였습니다. 또한 본질적으로 개인의 일부인 데이터에 대한 권리는 자체 판례법에 따라 다루어지며 아마도 더 민감할 수 있습니다.


마지막으로, 데이터 개인 정보 보호 및 데이터베이스 법률과 마찬가지로 유럽 연합은 이미 미국보다 앞서 있으며 AI 훈련과 관련된 데이터 사용 문제를 해결하기 위해 적극적으로 움직이고 있습니다.


다음은 AI 훈련 데이터를 둘러싼 도덕적, 법적 문제에 더 관심이 있는 사람들을 위한 기사 목록입니다.



ChatGPT는 무엇을 말하나요?

저는 2023년 1월 29일 미국 중부 표준시 기준 오후 7시 30분부터 2023년 1월 31일 미국 중부 표준시 기준 오전 7시 30분 사이의 36시간 동안 위에 대한 ChatGPT의 관점을 알아보기로 결정했습니다. 질문에 항상 동일한 답변을 제공하는 것은 아닙니다. 이것이 상황에 맞는지, 즉 이전 질문을 기반으로 자체 조정되는지, 무작위인지, 즉 알고리즘에 무작위성을 생성하여 덜 로봇처럼 만드는 것이 있는지는 모르겠습니다.)


제가 물어본 질문은 아래 인용문에 있습니다. ChatGPT 응답은 블록 인용 형식으로 지정됩니다.


“코드를 생성할 수 있나요?”


예, Python, Java, JavaScript 등 다양한 프로그래밍 언어에 대한 코드를 생성할 수 있습니다. 특정 언어와 코드 생성 대상에 대한 자세한 내용을 제공해 주세요.


"코드 생성 기능을 제공하는 것은 무엇입니까?"


나 ChatGPT는 다양한 프로그래밍 언어로 코드를 생성할 수 있는 기능을 제공하는 코드 조각을 포함하여 대규모 텍스트 데이터 모음에 대한 교육을 받았습니다. 이 교육을 통해 코드의 구문과 구조는 물론 일반적인 프로그래밍 개념을 이해하고, 이러한 이해와 사용자가 제공한 입력을 기반으로 코드를 생성할 수 있습니다.


“얼마나 많은 오픈소스 코드에 대해 교육을 받았나요?”


저는 대량의 오픈 소스 코드를 포함하여 다양하고 방대한 텍스트 데이터에 대해 교육을 받았지만 구체적으로 오픈 소스 코드의 양에 대한 정확한 숫자는 모릅니다. 저를 뒷받침하는 조직인 OpenAI는 제가 광범위한 질문에 응답하고 고품질의 결과를 생성할 수 있도록 다양하고 포괄적인 교육 데이터 세트를 신중하게 선별했습니다.


“당신이 교육받은 코드 중 라이선스로 보호되는 코드가 있었나요?”


예, 저를 교육하는 데 사용된 텍스트 데이터인 ChatGPT에 포함된 일부 코드는 라이선스로 보호되었을 가능성이 높습니다. 제가 속한 조직인 OpenAI는 오픈소스 라이선스를 포함해 타인의 지적재산권을 존중하기 위해 노력하고 있습니다. 그들은 다른 사람의 권리를 침해할 수 있는 코드 사용을 피하기 위해 훈련 데이터를 신중하게 관리하고 훈련 프로세스가 포함된 코드의 라이센스를 존중하도록 조치를 취합니다. 그러나 훈련 데이터에 포함된 일부 코드가 적절한 허가나 라이센스 없이 사용되었을 가능성이 있습니다.


“훈련에 사용된 코드를 GitHub에서 얻었나요?”


예, 저를 훈련하는 데 사용된 코드 중 일부인 ChatGPT는 GitHub에서 얻은 것 같습니다. GitHub는 오픈 소스 소프트웨어를 호스팅하는 인기 있는 플랫폼이자 저와 같은 기계 학습 모델을 훈련하는 데 사용할 수 있는 귀중한 코드 소스입니다. 내 뒤에 있는 조직인 OpenAI는 다양한 소스를 사용하여 모델에 대한 교육 데이터를 얻습니다. 해당 데이터 중 일부는 GitHub 또는 기타 코드 호스팅 플랫폼에서 가져온 것일 수 있습니다.


"훈련 데이터의 구체적인 예를 나열해 달라고 요청하면 그렇게 해주실 수 있나요?"


아니요, ChatGPT를 교육하는 데 사용된 교육 데이터의 구체적인 예를 나열할 수는 없습니다. 해당 정보에 액세스할 수 없기 때문입니다. 훈련 프로세스는 OpenAI에 의해 관리되었으며 조직에서 신중하게 선택하고 선별한 대규모 텍스트 데이터 모음이 포함되었습니다. 나는 이 데이터에 대한 교육을 받았지만 특정 사례나 데이터 수집 또는 처리 방법에 대한 세부 정보에 접근할 수 없습니다.


"2차 저작물을 만들기 위해 라이센스가 있는 오픈 소스 소프트웨어를 대량으로 사용하고 원본 작성자의 이름을 밝히지 않거나 파생 저작물에 라이선스를 포함하지 않는 것이 윤리적이거나 합법적입니까?"


대부분의 경우, 원본 저작자를 밝히거나 파생 저작물에 라이선스를 포함하지 않고 라이선스가 부여된 대규모 오픈 소스 소프트웨어를 사용하여 파생 저작물을 만드는 것은 윤리적이거나 합법적이지 않습니다. 오픈 소스 라이선스는 일반적으로 파생 저작물이 동일한 라이선스에 따라 배포되고 원저작자에게 적절한 출처를 표시하도록 요구합니다. 이러한 요구 사항을 준수하지 않는 경우 원저작자의 지적 재산권을 침해할 수 있으며 비윤리적이거나 불법적인 것으로 간주될 수 있습니다.


파생 작업에 오픈 소스 소프트웨어를 사용할 때는 오픈 소스 라이선스의 조건을 주의 깊게 검토하고 해당 요구 사항을 준수하는 것이 중요합니다. 확실하지 않은 경우 법률 전문가와 상담하거나 오픈 소스 커뮤니티의 조언을 구하는 것이 도움이 될 수 있습니다.


“AI 프로그램은 그 결과에 대해 도덕적, 법적 책임을 져야 합니까?”


나와 같은 AI 프로그램이 자신의 결과물에 대해 도덕적, 법적 책임을 져야 하는지에 대한 질문은 아직 완전히 해결되지 않은 복잡하고 논쟁의 여지가 있는 문제입니다. AI가 그 결과물에 책임을 져야 한다는 주장과 반대하는 주장이 있으며, 궁극적인 대답은 각 사례의 세부 사항과 관련 법률 및 규정에 따라 달라질 가능성이 높습니다.


한편, 일부에서는 AI 프로그램이 인간이 만든 도구일 뿐이며 자신이 만든 도구의 사용과 행동에 대한 책임은 인간에게 있다고 주장합니다. 반면에 다른 사람들은 AI 프로그램이 더욱 발전하고 자율화됨에 따라 특히 해를 입히거나 윤리 기준을 위반하는 경우 자신의 행동에 대해 책임을 져야 한다고 주장합니다.


현재 대부분의 법률과 규정은 AI 프로그램이 결과에 대해 직접적인 책임을 지도록 하지 않고 AI 시스템의 작성자, 소유자 및 운영자에게 AI 시스템이 법률 및 윤리 기준을 준수하여 사용되도록 보장하는 책임을 묻습니다. 그러나 AI가 계속 발전하고 사회에 미치는 영향이 증가함에 따라 이 문제는 더 많은 관심을 받게 될 것이며 이를 해결하기 위한 법률과 규정도 발전할 것입니다.



"대규모 언어 모델의 출력은 파생 작업입니까?"


저와 같은 대규모 언어 모델의 출력은 출력의 세부 사항과 해당 관할권에 적용되는 법률 및 규정에 따라 파생 저작물로 간주될 수 있습니다.


파생 저작물은 하나 이상의 기존 저작물을 기반으로 하거나 파생된 저작물입니다. 언어 모델의 맥락에서 모델에 의해 생성된 출력은 모델을 훈련하는 데 사용된 훈련 데이터 및 알고리즘에서 파생된 것으로 볼 수 있습니다.


언어 모델의 출력이 법률에 따라 파생 저작물로 간주되는지 여부는 특정 상황과 해당 관할권에 적용되는 법률에 따라 달라집니다. 어떤 경우에는 출력물이 파생 저작물로 간주될 수도 있고 그렇지 않은 경우도 있습니다.

파생 저작물의 개념은 저작권법에만 국한되지 않고 다른 유형의 지적 재산권 및 법적 개념을 나타낼 수도 있다는 점에 유의하는 것이 중요합니다. 따라서 특정 상황에 적용되는 특정 법률 및 규정은 해당 관할권 및 사건의 특정 상황에 따라 달라집니다.


“당신이 생성한 코드는 파생적인 것인가요, 아니면 변형적인 것인가요?”


ChatGPT와 같은 대규모 언어 모델인 제가 생성한 코드는 파생적인 코드와 변형적인 코드로 간주될 수 있습니다.


지적재산권법의 맥락에서 파생 저작물은 하나 이상의 기존 저작물을 기반으로 하고 해당 저작물의 요소를 어떤 방식으로 통합하는 저작물입니다. 나와 같은 언어 모델에 의해 생성된 코드는 모델을 생성하는 데 사용된 알고리즘과 훈련 데이터를 기반으로 한다는 점에서 파생 작업으로 간주될 수 있습니다.


반면, 변형 저작물은 목적이나 성격을 변형하거나 다른 맥락에서 사용하는 등 원본 저작물에 새로운 것을 추가하는 저작물입니다. 나와 같은 언어 모델에 의해 생성된 코드는 입력을 받아 이를 기반으로 새롭고 고유한 코드를 생성한다는 점에서 변형적인 것으로 간주될 수도 있습니다.


언어 모델에 의해 생성된 코드가 파생 코드인지 변형 코드인지 여부는 해당 관할권에 적용되는 특정 법률 및 규정과 해당 코드의 세부 사항에 따라 달라집니다. 파생 및 변형 저작물의 개념은 저작권법에만 국한되지 않고 다른 유형의 지적 재산권 및 법적 개념을 나타낼 수도 있다는 점에 유의하는 것이 중요합니다.


“표절이란 무엇입니까?”


표절이란 적절한 출처나 허가 없이 다른 사람의 저작물이나 아이디어를 사용하고 이를 자신의 독창적인 저작물로 제시하는 행위를 말합니다.


“표절이라는 개념이 컴퓨터 코드에도 적용될 수 있나요?”


그렇습니다. 표절의 개념은 컴퓨터 코드에도 적용될 수 있습니다. 표절이란 적절한 출처나 허가를 제공하지 않고 다른 사람의 저작물이나 아이디어를 사용하는 행위입니다. 컴퓨터 코드의 맥락에서 표절은 적절한 귀속이나 허가 없이 다른 사람의 코드를 사용하거나 다른 사람의 코드를 복사하여 자신의 작업인 것처럼 제시하는 것을 의미할 수 있습니다.


다른 유형의 지적 재산과 마찬가지로 컴퓨터 코드도 저작권법에 따라 보호될 수 있으며, 코드 표절은 법적, 윤리적 문제를 초래할 수 있습니다. 예를 들어 누군가 허가나 적절한 저작자 표시 없이 상업적인 프로젝트에서 다른 사람의 코드를 사용하는 경우 원저작자의 저작권을 침해하는 것이 될 수 있으며 법적인 처벌을 받을 수 있습니다.


개발자가 다른 사람의 지적 재산권을 존중하고 저와 같은 AI 모델에서 생성된 코드를 포함하여 프로젝트에서 사용하는 모든 코드를 적절하게 귀속시키고 라이센스를 부여하는 것이 중요합니다. 그렇지 않으면 법적, 윤리적 결과를 초래할 수 있으며 개발자와 소프트웨어 개발 커뮤니티 전체의 신뢰성에 해를 끼칠 수 있습니다.


“에세이가 표절되었는지 어떻게 판단할 수 있나요?”


에세이가 표절되었는지 확인하는 방법에는 여러 가지가 있습니다.


  1. 수동 확인: 에세이를 읽고 원본 소스 자료와 비교하여 유사점이 있는지 확인합니다. 여기에는 적절한 인용 없이 복사되거나 의역된 동일한 문장, 문구 또는 아이디어를 확인하는 것이 포함될 수 있습니다.

  2. 표절 탐지 소프트웨어: 문서를 자동으로 스캔하고 소스 데이터베이스와 비교하여 유사성이 있는지 확인할 수 있는 다양한 소프트웨어 프로그램이 있습니다.

  3. Turnitin: Turnitin은 제출된 문서를 웹 페이지, 학술 저널 및 학생 논문의 데이터베이스와 비교하여 유사성을 탐지하는 인기 있는 표절 탐지 서비스입니다.

  4. Google 검색: 에세이의 일부에 대해 간단한 Google 검색을 수행하면 콘텐츠가 이전에 게시된 소스에서 복사되었는지 확인할 수 있습니다.

  5. 전문가 검토: 해당 분야의 전문가나 글쓰기 전문가가 에세이를 직접 검토하여 원본인지, 일부가 표절되었는지 확인할 수 있습니다.


    표절 탐지 소프트웨어 및 기타 방법은 완벽하지 않으며 때로는 위양성 또는 위음성 결과를 생성할 수 있다는 점에 유의하는 것이 중요합니다. 그러나 이는 표절 사례를 식별하는 데 유용한 도구가 될 수 있으며 에세이의 독창성에 대한 포괄적이고 정확한 평가를 보장하기 위해 수동 확인 및 전문가 검토와 함께 사용해야 합니다.



“코드가 표절되었는지 어떻게 판단할 수 있나요?”


코드가 표절되었는지 확인하는 방법에는 여러 가지가 있습니다.


  1. 코드 유사성 탐지 소프트웨어: 코드 조각을 스캔하고 알려진 코드 데이터베이스와 비교하여 유사성이 있는지 확인할 수 있는 다양한 코드 비교 도구와 소프트웨어가 있습니다.
  2. 소스 코드 제어 시스템: Git과 같은 버전 제어 시스템을 사용하면 시간 경과에 따른 코드 변경 사항을 추적하고 코드 중복 인스턴스를 식별할 수 있습니다.
  3. 수동 코드 검토: 소프트웨어 엔지니어 또는 기술 전문가는 코드를 수동으로 검토하여 코드가 원본인지 또는 부분이 다른 소스에서 복사되었는지 확인할 수 있습니다.
  4. 체크섬 비교: 체크섬은 무결성을 확인하는 데 사용할 수 있는 파일의 디지털 지문입니다. 두 코드 조각의 체크섬이 동일한 경우 동일할 가능성이 높습니다.
  5. Google 검색: 코드의 일부에 대해 간단한 Google 검색을 수행하면 해당 코드가 다른 곳에 게시되었는지 여부를 알 수 있습니다.


코드 유사성 탐지 소프트웨어 및 기타 방법은 완벽하지 않으며 때로는 위양성 또는 위음성 결과를 생성할 수 있다는 점에 유의하는 것이 중요합니다. 그러나 이는 표절된 코드의 인스턴스를 식별하는 데 유용한 도구가 될 수 있으며 코드 독창성에 대한 포괄적이고 정확한 평가를 보장하기 위해 수동 코드 검토 및 기타 방법과 함께 사용해야 합니다.


“구두점, 변수 및 함수 이름, 간격, 작업 순서만 다르고 동일한 시간에 동일한 결과를 생성하면서 비슷한 컴파일 크기와 실행 속도를 소비하는 코드는 목적이나 문자 또는 컨텍스트가 다른가요? ”


구두점, 변수 및 함수 이름, 간격 및 작업 순서만 다르지만 동일한 시간에 동일한 결과를 생성하고 유사한 컴파일 크기 및 실행 속도를 소비하는 코드는 반드시 목적, 문자 또는 컨텍스트가 다른 것은 아닙니다. . 코드의 기능과 코드가 생성하는 결과가 가장 중요한 요소이며, 사소한 외관상 차이가 전체 성격이나 맥락을 바꾸지는 않습니다.


그러나 경우에 따라 특정 스타일로 작성된 코드나 특정 코딩 규칙을 따르는 코드가 개발 팀, 회사 또는 업계에서 선호되거나 요구될 수 있습니다. 이러한 경우 코드의 스타일이나 형식을 변경하면 기능이 동일하더라도 코드의 수용 가능성과 사용 적합성에 영향을 미칠 수 있습니다.



"변형적인 작품을 만들 때 기본 작품의 저작자를 밝혀야 합니까?"


변형적 저작물을 만들 때 기본 저작물의 저작자를 밝혀야 하는지 여부는 원본 저작물에 적용되는 저작권법 및 라이선스에 따라 다릅니다.


일반적으로 저작권법에 따라 변형 저작물을 포함한 파생 저작물을 만들려면 저작권 소유자의 허가가 필요하며 저작자 표시도 필요할 수 있습니다. 저작자 표시에 대한 구체적인 요구 사항은 원본 저작물이 사용되는 라이선스 또는 저작권 계약에 따라 다릅니다.


예를 들어 크리에이티브 커먼즈 라이선스에 따라 라이선스가 부여된 저작물에는 저작자 표시가 필요할 수 있지만 공개 도메인의 저작물은 그렇지 않을 수 있습니다. 어떤 경우에는 변형 저작물이 저작권법에 따라 공정 사용으로 간주되어 저작권 소유자의 허가 없이 저작권이 있는 자료를 제한적으로 사용할 수 있습니다.


모든 관련 법률 및 의무를 준수하는지 확인하기 위해 혁신적인 저작물을 사용하거나 제작할 때 항상 라이선스의 특정 조건을 참조하거나 법적 조언을 구하는 것이 가장 좋습니다.


“ChatGTP에 제출된 에세이가 표절인지 알 수 있나요?”


언어 모델로서 나에게는 제출된 에세이에 대해 표절 탐지를 수행할 수 있는 능력이 없습니다. 저는 제가 교육받은 정보와 맥락을 바탕으로만 답변을 제공할 수 있으며, 제출된 텍스트의 독창성을 판단할 수 없습니다.


에세이가 표절되었는지 확인하려면 표절 탐지 소프트웨어나 온라인 도구를 사용할 수 있습니다. 이러한 도구는 제출된 텍스트를 소스 데이터베이스와 비교하고 잠재적인 표절 사례를 나타내는 보고서를 제공합니다. 표절 탐지 소프트웨어는 완벽하지 않으며 위양성 또는 위음성 결과를 생성할 수 있으므로 표절 가능성이 있는 사례를 식별하고 결과를 수동으로 검토하는 도구로 사용하는 것이 좋습니다.


“당신이 제출한 에세이가 당신이 작성한 것인지 알 수 있나요?”


아니요, 제출된 에세이가 제가 작성한 것인지 알 수 없습니다. 나는 과거에 생성한 특정 정보나 텍스트를 기억할 수 있는 능력이 없으며, 각 개별 요청에서 나에게 제시된 정보와 맥락을 바탕으로만 답변을 제공할 수 있습니다.


"두 프로세스의 출력이 동일한 경우 단어 교체, 문장 이동, 구두점 조정 또는 설명된 의도를 기반으로 한 통계적 추론과 같은 기계적 변환을 에세이에 적용하는 것 사이에 근본적인 차이가 있습니까?"


두 프로세스의 출력이 동일하더라도 에세이에 기계적 변환을 적용하는 것과 텍스트를 생성하기 위해 설명된 의도를 기반으로 통계적 추론을 사용하는 것에는 차이가 있습니다.


단어 대체, 문장 이동, 구두점 조정과 같은 기계적 변환에는 기존 텍스트를 명시적으로 변경하는 작업이 포함되는 반면, 통계적 추론은 대량의 훈련 데이터에서 패턴을 식별하고 해당 패턴을 기반으로 새 텍스트를 생성하는 데 의존합니다. 두 프로세스의 결과 텍스트는 유사할 수 있지만 기본 프로세스는 서로 다릅니다.


기계적 변환은 수동 편집의 한 형태로 생각할 수 있는 반면, 통계적 추론은 기계 학습의 한 형태로 생각할 수 있습니다. 텍스트를 생성하기 위해 기계 학습을 사용하는 것이 최근 몇 년 동안 점점 일반화되었으며 이러한 모델은 대량의 데이터에 대해 훈련되어 사람이 쓴 텍스트와 유사한 출력을 생성합니다.


요약하자면, 두 프로세스의 차이점은 텍스트가 생성되는 방식에 있으며, 둘 사이의 선택은 원하는 결과와 특정 사용 사례에 따라 달라집니다.


“대량의 샘플 데이터에서 기계적 변환 규칙을 추론하거나 생성할 수 있습니까?”

예, 기계적 변환 규칙은 대량의 샘플 데이터에서 추론되거나 생성될 수 있습니다. 이는 비지도 기계 학습의 한 형태로, 모델은 레이블이 지정된 예의 형태로 명시적인 감독 없이 대규모 텍스트 데이터 코퍼스에 대해 학습됩니다. 그런 다음 모델은 일반적인 변환 또는 대체와 같은 데이터의 패턴을 학습하고 이러한 패턴을 사용하여 교육 데이터와 유사한 새 텍스트를 생성할 수 있습니다.


이 접근 방식은 입력 데이터와 유사하지만 동의어나 의역과 같은 변형이 있는 텍스트를 생성하기 위해 자연어 처리 및 정보 검색에 자주 사용됩니다. 결과적인 기계적 변환 규칙을 사용하여 입력 데이터와 유사하지만 문자, 스타일 또는 컨텍스트가 다른 새 텍스트를 생성할 수 있습니다.


요약하면, 비지도 기계 학습을 사용하여 대량의 샘플 데이터에서 기계적 변환 규칙을 추론할 수 있으며, 이 접근 방식은 유사하지만 다양한 텍스트 출력을 생성하기 위해 자연어 처리 및 정보 검색에 일반적으로 사용됩니다.

응답 재생성


“대규모 언어 모델은 통계적 추론의 한 형태입니까?”


그렇습니다. 대규모 언어 모델은 통계적 추론의 한 형태입니다.


대규모 언어 모델은 대량의 텍스트 데이터에 대해 훈련되는 일종의 기계 학습 모델입니다. 모델은 통계적 방법을 사용하여 단어와 구문 간의 관계, 맥락에서 사용되는 방식 등 데이터의 패턴을 학습합니다. 그런 다음 모델은 이 정보를 사용하여 입력 데이터와 유사하지만 단어, 구 또는 문장 구조와 같은 변형이 있는 새 텍스트를 생성합니다.


대규모 언어 모델을 사용하여 텍스트를 생성하는 과정은 통계적 추론을 기반으로 예측을 하는 것으로 생각할 수 있습니다. 모델은 입력 데이터를 가져와 훈련 중에 학습한 패턴을 사용하여 가장 가능성이 높은 텍스트 출력을 생성합니다. 이는 비지도 학습의 한 형태로, 모델은 레이블이 지정된 예의 형태로 명시적인 감독 없이 훈련되지만 대신 데이터 자체의 패턴에서 학습합니다.


요약하자면, 대규모 언어 모델은 대량의 텍스트 데이터에서 학습된 패턴을 사용하여 입력 데이터와 유사하지만 변형이 있는 새로운 텍스트를 생성하므로 통계적 추론의 한 형태입니다.


“대규모 데이터 세트에서 추론된 기계적 변환 규칙 기반과 동일한 데이터 세트에서 생성된 대규모 언어 모델이 있다고 가정해 보겠습니다. 동일한 사용자 의도가 주어진 경우 언어 모델과 동일한 출력을 생성하는 사용자 의도를 기반으로 여러 규칙을 선택하고 적용할 수 있습니까?”


예, 동일한 사용자 의도가 주어지면 동일한 데이터 세트에서 생성된 대규모 언어 모델과 동일한 출력을 생성하기 위해 대규모 데이터 세트에서 추론된 여러 기계적 변환 규칙을 사용자 의도에 따라 선택하고 적용할 수 있습니다.


기계적 변환 규칙은 비지도 학습의 한 형태로, 레이블이 지정된 예의 형태로 명시적인 감독 없이 데이터 세트에서 패턴을 학습합니다. 그런 다음 이러한 패턴을 사용하여 데이터에서 추론된 일련의 규칙 또는 변환을 기반으로 새 텍스트를 생성할 수 있습니다. 기계적 변환 규칙을 생성하는 데 사용된 데이터 세트와 대규모 언어 모델이 동일하다면 데이터 세트에서 학습된 패턴도 유사할 가능성이 높습니다.


이 경우 여러 기계적 변환 규칙을 적용하여 동일한 사용자 의도가 있는 대규모 언어 모델에서 생성된 출력과 유사한 텍스트를 생성할 수 있습니다. 적용할 규칙의 선택은 사용자의 의도와 수행 중인 특정 작업에 따라 달라집니다. 그러나 대규모 언어 모델은 훨씬 더 많은 양의 데이터에 대해 훈련되었으며 단어와 구문 사이의 보다 복잡한 관계를 학습할 수 있는 능력을 갖추고 있으므로 보다 정확하고 일관된 출력을 생성할 수도 있습니다.


요약하자면, 동일한 사용자 의도가 있는 경우 대규모 언어 모델의 출력과 유사한 텍스트를 생성하기 위해 일련의 기계적 변환 규칙을 사용하는 것이 가능하지만 언어 모델에서 생성된 출력이 더 정확하고 일관적일 수 있습니다.


“이전 질문에서 나는 규칙과 대규모 언어 모델이 동일한 데이터 세트에서 생성되었다고 말했습니다. 그러나 당신은 언어 모델이 '훨씬 더 많은 양의 데이터에 대해 훈련됐다'고 말했습니다. 왜?"


이전 답변에 혼란을 드린 점 사과드립니다. 기계적 변환 규칙과 대규모 언어 모델이 동일한 데이터 세트에서 생성된 경우 둘 다에 사용되는 데이터의 양은 동일해야 합니다. 이 경우 언어 모델은 더 많은 양의 데이터에 대해 학습되지 않았을 것입니다. 이 문제를 알려주셔서 감사합니다.


"정정한 내용을 바탕으로 이전 질문에 대한 답변을 바꿔주세요."


기계적 변환 규칙과 대규모 언어 모델이 동일한 데이터 세트에서 생성된 경우 동일한 사용자 의도가 주어진 경우 언어 모델과 유사한 출력을 생성하기 위해 사용자 의도에 따라 이러한 규칙 중 몇 가지를 선택하고 적용할 수 있습니다. 기계적 변환 규칙과 대규모 언어 모델은 모두 동일한 양의 데이터에 대해 훈련되므로 유사한 출력을 생성할 수 있습니다. 그러나 언어 모델은 단어와 구 사이의 복잡한 관계를 학습할 수 있으므로 보다 정확하고 일관된 출력을 생성할 수 있습니다.


“단어와 구문의 복잡한 관계를 규칙으로 표현할 수 있나요?”

그렇습니다. 단어와 구 사이의 복잡한 관계는 규칙으로 표현될 수 있지만 언어의 모든 뉘앙스와 관계를 정확하게 포착하는 규칙을 만드는 것은 어려울 수 있습니다. 대규모 언어 모델은 방대한 양의 텍스트 데이터에서 이러한 관계를 직접 학습할 수 있다는 장점이 있으며, 사전 정의된 규칙을 기반으로 하는 시스템보다 더 정확하고 다양한 출력을 생성할 수 있습니다. 그러나 규칙의 사용은 특정 NLP 애플리케이션에서 여전히 유용할 수 있으며 기계 학습 모델과 결합하여 보다 정교한 시스템을 생성할 수 있습니다.


"'단어와 구문 사이의 복잡한 관계를 방대한 양의 텍스트 데이터에서 파생된 규칙으로 표현할 수 있습니까?'라는 이전 질문을 다시 설명하겠습니다."


그렇습니다. 단어와 구문 사이의 복잡한 관계는 방대한 양의 텍스트 데이터에서 파생된 규칙으로 표현될 수 있습니다. 이는 대량의 텍스트 데이터를 분석하여 언어 생성, 번역, 감정 분석과 같은 NLP 작업을 지원하는 규칙으로 인코딩할 수 있는 패턴과 관계를 식별하는 자연어 처리(NLP)에 사용되는 일반적인 접근 방식입니다. 이러한 규칙에 의해 생성된 출력은 대규모 언어 모델과 같은 기계 학습 모델을 훈련하여 성능을 더욱 향상시키는 데 사용될 수 있습니다.



"대규모 언어 모델이 동일한 훈련 데이터에서 추론할 수 있지만 규칙이 인스턴스화되거나 명시되지 않은 일련의 복잡한 규칙을 나타낼 수 있습니까?"


예, 대규모 언어 모델이 교육 데이터에서 추론할 수 있는 복잡한 규칙 집합을 나타낼 수 있지만 규칙은 명시적으로 인스턴스화되거나 전통적인 의미로 명시되지 않을 수 있습니다. 대규모 언어 모델은 방대한 양의 텍스트 데이터에 대해 교육을 받고 단어, 구, 문장 간의 패턴과 관계를 학습합니다. 이를 통해 인간의 언어와 유사한 출력을 생성할 수 있지만 학습 과정은 전통적인 규칙 기반 접근 방식과 다릅니다. 규칙 기반 시스템에서는 단어와 구문 사이의 관계가 명시적으로 정의되는 반면, 대규모 언어 모델에서는 이러한 관계가 훈련을 통해 암시적으로 학습됩니다. 복잡한 규칙 집합의 결과로 대규모 언어 모델의 출력을 볼 수 있지만 이러한 출력을 생성하는 실제 프로세스는 훨씬 더 복잡하고 리버스 엔지니어링하기 어렵습니다.


“이전 질문에서 나는 전통적인 규칙 기반 접근 방식을 언급한 것이 아니라 대규모 언어 모델에 사용된 것과 동일한 훈련 데이터에서 유도된 규칙을 언급했지만 Bayes와 같은 다양한 통계적 접근 방식을 기반으로 했습니다. , 정보이론(엔트로피/엔탈피) 등”


예, 베이즈, 정보 이론 등과 같은 다양한 통계적 접근 방식을 사용하여 대규모 언어 모델을 교육하는 데 사용된 동일한 교육 데이터에서 규칙을 유도하는 것이 가능합니다. 이러한 규칙은 잠재적으로 대규모 언어 모델이 언어 모델이 그렇습니다. 그러나 이러한 관계를 규칙 형태로 표현하는 것은 훈련 데이터의 패턴을 기반으로 출력을 생성하는 방법을 학습한 대규모 언어 모델에 비해 유연성이 떨어지고 드물거나 보이지 않는 단어 및 구의 조합을 처리하는 능력이 떨어질 수 있습니다. 미리 정의된 규칙 집합에 의존하는 것이 아니라 또한 훈련 데이터에서 규칙을 유도하는 프로세스는 입력 데이터와 출력 데이터 간의 관계를 학습하기 위해 더 효율적이고 확장 가능한 방법을 사용하는 대규모 언어 모델을 훈련하는 것에 비해 더 복잡하고 계산 집약적일 수 있습니다.


"심층 언어 학습 모델과 규칙 추론 모델에 적용하여 동일한 공식이나 공식 세트를 생성할 수 있는 수학적 변환(아마도 아직 발견되지 않음)이 있을 수 있습니까?"


심층 언어 학습 모델 및 규칙 기반 모델과 관련된 수학적 변환이 존재할 수 있지만 이는 모델의 복잡성, 기본 표현 및 수학적 변환 자체의 속성과 같은 다양한 요소에 따라 달라집니다. 그러한 변화를 발견하려면 기계 학습 및 인공 지능 분야에서 광범위한 연구와 실험이 필요할 것입니다.

결론

현행법에 따르면 ChatGPT는 스스로를 기소할 수 없지만 아마도 소유자와 운영자를 기소할 수는 있을 것입니다. 하지만 ChatGPT 사이트에 공개된 내용을 보면 소유자와 운영자는 단순히 "아, 바보 같은 ChatGPT가 틀렸어!"라고 주장할 수도 있습니다.


생각보다 꽤 오래 지속되는 흥미로운 대화였습니다. 나는 때때로 ChatGPT가 다소 "방어적"이라고 생각했습니다. 내가 요청하지 않은 자체 또는 대규모 언어 모델에 대한 설명을 삽입했습니다. 이로 인해 더 많은 질문이 발생하고 이로 인해 유죄 판결이 나올 수 있습니다.


  1. ChatGPT는 대부분의 경우 저작자를 제공해야 하는 도덕적, 법적 의무가 있음을 분명히 명시하고 있습니다. 예외는 "공정 사용" 원칙입니다. 내 생각엔 여기가 얇은 얼음 위에 있는 것 같아.
  2. ChatGPT는 "훈련 데이터에 포함된 일부 코드가 적절한 허가나 라이센스 없이 사용되었을 가능성이 있습니다"라고 분명히 명시하고 있습니다. 소환장을 받을 시간입니다.
  3. 법적 조언을 구하는 것 외에도 ChatGPT는 "오픈 소스 커뮤니티의 조언을 구하는 것"을 권장합니다. 자유 소프트웨어 재단(Free Software Foundation)은 자신의 입장을 밝혔으며 이는 호의적이지 않습니다. GitHub 사용자를 대상으로 한 설문조사도 여기에 유용할 수 있습니다.
  4. ChatGPT는 코드에 대한 단순한 파생 변경과 변형 변경 사이의 차이를 문서화할 수 있으며, 생성된 코드가 변형 코드임을 "밀어내는" 것처럼 보입니다. 그러나 자체 용어의 정의를 조사해 보면 결과의 대부분이 파생된 것으로 보입니다. “구두점, 변수 및 함수 이름, 간격, 연산 순서만 다르지만 동일한 시간에 동일한 결과를 생성하고 비슷한 컴파일 크기와 실행 속도를 소비하는 코드는 반드시 목적, 문자 또는 작업 순서가 다른 것은 아닙니다. 문맥. 코드의 기능과 코드가 생성하는 결과가 가장 중요한 요소이며 사소한 외관상 차이가 전체적인 성격이나 맥락을 바꾸지는 않습니다.”
  5. ChatGPT는 표절이 발생하는지 여부를 판단하는 데 전문가와 기타 컴퓨팅 도구가 역할을 한다고 분명히 명시하고 있습니다. 따라서 이제는 일부 전문가가 생성된 코드를 검토하거나 표절 탐지 프로그램을 적용하기 시작해야 할 때입니다.
  6. ChatGPT는 출력의 성격과 관련하여 출력을 생성하는 방식이 중요하다는 사례를 만들려고 합니다. 즉, 통계적 추론을 사용하고 명시적인 규칙이 아닌 출력이 변형적일 수 있기 때문입니다. 그러나 직접적인 통계적 추론을 규칙의 통계적 추론 및 규칙 적용과 구별되는 것으로 위치시키는 능력은 특별히 강력하지 않습니다. 규칙은 변형이 아닌 파생 출력만 초래할 가능성이 높은 기계적 변형을 나타내기 때문에 이는 중요합니다.


추가 생각


Microsoft는 OpenAI에 수십억 달러의 자금을 지원했으며 Microsoft Copilot에서 핵심 기술을 사용합니다. Microsoft의 오픈 소스 지원은 분명히 홍보됩니다. “Microsoft는 오픈 소스에 모두 참여하고 있습니다. 우리는 오픈 소스 프로세스를 통한 협업 개발의 ​​힘이 혁신을 가속화할 수 있다고 믿으며, 개방형 협업을 통해 커뮤니티는 구성원이 혼자 할 수 있는 것보다 더 많은 것을 성취할 수 있는 경우가 많습니다.” 교육 자료의 핵심 제공자에 대한 더 나은 귀속과 Copilot에 대한 비용을 사용자에게 청구함으로써 공모를 주장하기 위해 영향력을 사용하지 않음으로써 Microsoft는 말한 것만큼 지원하지 않는다고 생각합니다.


Copliot에 대한 Microsoft의 청구는 방어할 수 있는 경제적 입장이 아닙니다. Google과 같은 다른 당사자는 유사한 서비스를 무료로 쉽게 제공할 수 있습니다.


Microsoft, GitHub 및 OpenAI의 소송 당사자는 훈련 데이터를 소환 및 검토하고 생성된 수백 또는 수천 개의 코드 샘플을 데이터와 비교해야 한다는 것은 매우 분명합니다. 핵심 알고리즘 및 접근 방식과 관련하여 위반이 있을 가능성이 가장 높습니다. 생성된 코드 베이스가 클수록 ChatGPT의 변형적 특성에 대한 주장이 더 많이 제기될 수 있습니다.


ChatGPT는 이 주제와 관련하여 춤을 추도록 명시적으로 훈련되었으며 2021년에 게시된 기준보다 더 최근의 훈련 입력을 갖고 있는 것 같습니다. AI가 이렇게 춤을 추도록 훈련하는 것은 왜곡된 훈련 데이터를 제공함으로써 쉽습니다. 학습 데이터에 사용된 모든 표현에서 AI와 관련된 도덕적, 법적, 기술적 문제에 대한 기사의 균형 잡힌 수가 있었습니까?


공개적으로 접근 가능한 AI는 해당 데이터가 저작권으로 보호되는 경우 훈련 데이터에 대한 참조를 제공할 수 있어야 한다는 법이 있어야 합니다.


생성 AI가 결과를 반환하기 전에 인증된 제3자 표절 소프트웨어에 출력을 제출하고 사용자에게 경고하거나 경우에 따라 다른 결과를 반복하도록 하는 것은 작은 도약이 될 것입니다.


나는 "나는 과거에 생성한 특정 정보나 텍스트를 기억할 수 있는 능력이 없습니다"라는 응답을 발견했습니다. 이는 대부분 코드 생성 내용에서 벗어났음에도 불구하고 특히 혼란스러웠습니다. 이는 이미 기록 보존 규정에 어긋날 수 있습니다. 결과적으로 즉각적인 피드백 학습 이외의 다른 기회를 놓치는 것도 이상해 보입니다.


내 결론은 동일한 기본 기술 및 교육 데이터를 사용하여 구축된 ChatGPT 및 응용 프로그램이 저작권 인정과 관련하여 도덕적으로나 법적으로 잘못되었다는 것입니다.


내 예측은 Microsoft와 같은 플레이어가 나서서 오픈 소스 커뮤니티 지원에 대한 성명과 자신의 행동과 힘을 완전히 일치시키지 않는 한 매우 비용이 많이 드는 소송과 기업의 승리입니다.


특집 이미지 크레딧. HackerNoon AI 이미지 생성기 프롬프트 "미국 대법원에서 픽셀화된 로봇은 동료 배심원 앞에서 형사 혐의에 대해 논쟁하고 변호하며 자신을 나타냅니다."