인공 지능 기술의 발전에 관심이 있는 사람이라면 오늘날의 솔루션이 모두 LLM(대형 언어 모델) 및 변환기 에 관한 것임을 알고 있습니다. 간단히 말해서, LLM은 입력 토큰을 기반으로 다음 토큰을 예측할 수 있는 신경망입니다. 일반적으로 이러한 토큰은 단어이며(완전히 정확하지는 않지만 이런 식으로 개념화하는 것이 더 쉽습니다) 네트워크의 출력도 단어입니다. 이것이 ChatGPT의 작동 방식입니다. 질문을 입력하면 네트워크가 단어를 생성합니다. 그런 다음 질문과 단어가 함께 네트워크 입력이 되어 완전한 답변이 형성될 때까지 다른 단어를 생성하는 등의 작업이 계속됩니다.
그러나 토큰은 단순한 단어 이상의 의미를 가질 수 있습니다. GPT-4 또는 Gemini와 같은 고급 언어 모델은 이제 다중 모드이므로 입력에 이미지와 단어가 포함될 수 있습니다. 문장이 단어로 분해될 수 있는 것처럼 이미지도 작은 패치로 분할될 수 있으며 거기에서 동일한 변환기 아키텍처가 이를 처리할 수 있습니다. 예를 들어, 멀티모달 네트워크는 이미지에 무엇이 있는지 설명하거나 사진에 보이는 사용자 인터페이스를 코딩하도록 요청받을 수 있습니다.
이 아키텍처는 훨씬 더 일반적입니다. DeepMind의 Gato 시스템은 단일 변압기 네트워크가 동시에 질문에 답변하고, 비디오 게임을 플레이하고, 로봇을 제어할 수 있으며, ChatGPT를 사용하여 로봇을 제어 할 수도 있는 대표적인 예입니다. LLM은 토큰과 함께 작동하고 모든 작업을 토큰화할 수 있으므로 LLM은 모든 작업에 대한 범용 솔루션을 제공합니다.
최근 가장 과장된 기술 뉴스 기사 중 하나는 기존 GPU보다 훨씬 더 효율적이고 적은 에너지로 LLM을 실행할 수 있는 ASIC(Application-Specific Integrated Circuit)를 개발하는 Groq 회사에 관한 것입니다. 이는 LLM 아키텍처가 매우 기본이 되었기 때문에 이제 이를 위한 특수 하드웨어를 만드는 것이 가치가 있음을 분명히 보여줍니다.
또한 최근에는 " 1비트 LLM의 시대: 모든 대형 언어 모델은 1.58비트에 있습니다 "라는 제목의 출판물이 등장했습니다. 신경망의 양자화는 크기와 계산 요구를 줄이는 일반적인 방법입니다. 솔루션의 핵심은 부동 소수점 수를 사용하여 대규모 GPU 클러스터에서 훈련을 수행한 다음 완성된 네트워크의 가중치를 덜 정확한 형식으로 변환하여 사용자 장치의 프로세서가 보다 효율적으로 작동할 수 있도록 하는 것입니다. 예를 들어 훈련은 16비트 또는 32비트 부동 소수점 숫자로 수행된 후 빠른 클라이언트 측 작업을 위해 8비트 또는 4비트 고정 소수점 숫자로 변환됩니다. 이렇게 하면 모델이 모바일이나 IoT 장치에서도 잘 작동할 수 있습니다. 이러한 양자화의 극단적인 형태는 가중치가 1비트 숫자로 변환되는 경우입니다. 이는 완전한 이진 변환 일 수도 있고 출판물에서 제안한 대로 {-1,0,1} 값(따라서 1.58비트)을 사용하는 것일 수도 있습니다. 이러한 극단적인 양자화로 인해 네트워크를 완전히 사용할 수 없게 될 것이라고 생각할 수도 있지만 실제로는 그 반대입니다. 이러한 1비트 네트워크는 매우 잘 작동합니다.
이 세 가지 값이 가중치를 표현하기에 충분하다면 현재 신경망에서 가장 자주 사용되는 연산인 곱셈은 더 이상 필요하지 않습니다. GPU가 매우 효율적으로 곱셈을 수행할 수 있기 때문에 GPU 클러스터가 신경망에 사용되는 이유입니다. 곱셈이 필요하지 않으므로 GPU가 필요 없으며 모델은 CPU에서도 효율적으로 실행될 수 있습니다. 또는 이러한 1비트 네트워크를 (아날로그 방식으로도) 실행할 수 있는 특수 하드웨어(ASIC)를 구축하는 것이 가능합니다.
현재 양자화는 훈련 후 작업입니다. 따라서 1비트 네트워크를 사용해도 훈련 프로세스가 가속화되지 않습니다. 그럼에도 불구하고 훈련은 일회성 작업이지만 신경망은 수없이 실행되기 때문에 여전히 유용합니다. 결과적으로 네트워크를 실행하는 것은 훈련보다 훨씬 더 많은 에너지 소비를 나타냅니다. 따라서 우리는 훈련의 맥락에서도 이 기술의 이점을 누릴 수 있습니다.
경사 기반 훈련은 1비트 또는 이진화된 네트워크에서는 작동하지 않으므로 유전 알고리즘이나 기타 경사 없는 기술과 같이 경사 기반이 아닌 기술이 적합해집니다( nevergrad 및 PyGAD 확인). 대부분의 경우 역전파는 경사가 없는 솔루션보다 훨씬 효율적이지만 1비트 네트워크는 부동 소수점 네트워크보다 훨씬 더 효율적으로 실행될 수 있습니다. 따라서 역전파를 사용하면 유전 알고리즘을 사용하는 것보다 부동 소수점 수를 사용하여 최적의 네트워크를 10배 더 빠르게 찾을 수 있습니다. 그러나 1비트 네트워크가 20배 더 빠르게 실행된다면 유전 알고리즘을 사용하여 훈련하는 속도는 여전히 2배 더 빠릅니다. 그라디언트 없는 방법을 사용하여 1비트 네트워크를 얼마나 효과적으로 훈련할 수 있는지 조사하는 것은 매우 흥미로운 연구 주제가 될 수 있습니다.
이 주제가 그토록 매력적인 또 다른 이유는 이러한 네트워크가 자연 두뇌에서 발견되는 신경 네트워크(생물학적으로 타당함)와 더 유사하기 때문입니다. 따라서 저는 좋은 Gradient-Free 훈련 알고리즘을 선택하고 이러한 1비트 네트워크를 적용함으로써 인간의 두뇌와 훨씬 더 유사한 시스템을 구축할 수 있다고 믿습니다. 또한 이는 아날로그, 조명 기반 또는 생물학적 기반 프로세서와 같이 이전에는 실현 불가능했던 ASIC 이상의 기술 솔루션에 대한 가능성을 열어줍니다.
이 방향은 장기적으로 막다른 골목으로 판명될 가능성이 있지만 현재로서는 혁명적인 잠재력이 명백하여 인공 지능 분야에 종사하는 모든 사람에게 매우 유망한 연구 방법이 되고 있습니다.