2,495 판독값

독점 AI와 오픈 소스 AI 간의 전투

~에 의해 Juan F. Gonzalez7m2023/11/03

너무 오래; 읽다

지난 수십 년 동안 과학적 진보가 어떻게 발전했는지 살펴보세요. 우리 시대의 가장 위대한 발명품의 촉매제로서 오픈 소스 소프트웨어에 대해 이야기합니다. 독점 AI 소프트웨어의 현재 진행 상황과 오픈 소스 커뮤니티가 AI 및 ML에서 달성한 큰 진전에 대한 개요입니다. 마지막으로 두 접근 방식의 장단점을 살펴보며 미래를 살펴보겠습니다.

여러분, AI가 세상을 장악하고 있으니 조심하세요!

글쎄요, 아직은 거기까지 도달하지 못했을 수도 있습니다. 하지만 여전히 지난 12개월 동안 그것이 미친 영향의 수준을 부인할 수는 없습니다.

이상한 부분은 개념과 연구 분야로서의 " 인공 지능 "이 그다지 새로운 것은 아니지만 올해 등장한 모든 챗봇과 AI 기반 도구로 "새롭게 느껴진다"는 것입니다.

그보다 더 중요한 것은 작년 이맘때까지 널리 알려진 AI 도구는 GPT-3와 ChatGPT뿐이었다는 사실입니다. 그러나 이제는 사용 가능한 모든 AI 도구, 챗봇 및 LLM을 추적하는 데 어려움을 겪을 수 있습니다.

모두 2가지 범주로 분류됩니다.

비공개 소스(예: ChatGPT 및 Claude)

오픈 소스(예: Falcon 또는 Mistral)

그리고 여기가 흥미로워지는 곳입니다.

독점 AI 모델만큼 인기 있고 고도로 세련된 오픈 소스 모델이 AI 공간에 파장을 일으키고 체급 이상으로 강력한 성능을 발휘하고 있습니다.

이것이 바로 이 글에서 우리가 살펴볼 내용입니다. AI만큼 혁명적인 기술을 사용하면 독점적이고 블랙박스 같은 소프트웨어가 있을까요, 아니면 오픈 소스가 더 나은 선택일까요?

이것과 다른 질문들은 오늘 에피소드에서 답변될 것입니다.

개방 또는 폐쇄? 그것이 질문이다

우선, 전체 과학적 프로세스는 정직성, 진실성, 투명성의 원칙을 바탕으로 구축되었습니다. 여기에는 결과를 검증하기 위한 개방성, 협업 및 동료 검토가 포함됩니다.

저온살균, 페니실린, 비료 등 세계 최대의 과학적 발전 중 다수는 수년에 걸쳐 많은 과학자들의 공동 작업 덕분에 가능했습니다.

종종 그들은 당시 자원이 부족한 큰 문제를 해결했습니다. 그들은 자신들의 연구 결과를 발표했고, 과학자들은 수년 후에 이를 기초로 인류의 이익을 위한 원래 문제에 대한 해결책을 개발했습니다.

그리고 이는 오픈 소스 기술에도 적용됩니다. 컴퓨터가 방 전체를 차지하는 거대한 기계에서 모든 가정이 가질 수 있는 장치로 변하면서 세상은 바뀌었습니다.

그리고 인터넷이 등장하면서 소수의 특권층 대신 많은 사람이 기술에 접근할 수 있게 되었습니다.

Tim Berners-Lee는 1989년에 World Wide Web을 발명하여 특허나 로열티 없이 모든 사람이 무료로 사용할 수 있도록 했습니다. 이는 인터넷의 급속한 성장과 향후 10년간의 수많은 혁신을 촉진했습니다.

비슷한 이야기가 운영 체제에서도 발생합니다. Windows와 Linux를 생각해 보세요. 웹 기술에서도 같은 일이 일어났습니다.

이전의 모든 사례를 통해 AI만큼 혁신적인 기술이 유사한 경로를 따를 수 있거나 따라야 한다는 추론이 가능합니다.

그럼 올해 양측(폐쇄형 AI와 오픈소스 AI)이 어떻게 발전했는지 살펴보겠습니다.

독점 AI의 현황

지금쯤 ChatGPT가 지난 11월에 출시되었을 때 미친 영향에 대해서는 누구에게도 뉴스가 되지 않습니다. 그리고 올해 남은 기간 동안 독점 AI가 마을의 화두가 되었습니다.

2023년 3월, GPT-3의 후속작인 GPT-4가 출시되었습니다. 그 사건은 AI 경쟁을 촉발시켰습니다.

얼마 지나지 않아 Google은 Bard 와 함께 경쟁에 합류했습니다. 그런 다음 전 OpenAI 연구원들이 설립한 Anthropic이 인기 있는 ChatGPT의 경쟁자인 Claude를 출시했습니다.

OpenAI는 현재 시장에서 가장 많은 '히트'를 기록하고 있는 회사입니다.

이는 GPT 모델, 다양한 Dall-E 버전 및 Whisper입니다. Microsoft는 또한 새롭고 향상된 Bing Chat(OpenAI 기술 기반)과 곧 모든 곳에 포함될 예정인 Copilot을 선보이고 있습니다.

Google은 처음에는 모든 사람을 압도하고 Microsoft와 Microsoft의 이니셔티브에 더 많은 관심을 기울이게 만든 초기 연구 프로젝트 Bard를 통해 경주에 합류했습니다. 그러나 "과학 박람회" 프로젝트 이후 Google은 게임 성능을 강화하고 Vertex AI, PaLM(및 PaLM2), Imagen 및 Codey와 같은 제품을 출시했습니다.

그리고 강력한 Claude(Claude-instant, Claude 2)의 다양한 버전이 포함된 Anthropic이 있습니다. 흥미로운 부분은 그들이 "헌법적 AI"라고 부르는 Claude를 훈련하는 데 사용한 접근 방식입니다. 이러한 접근 방식은 안전을 최우선으로 생각하고 인간의 이익과 가치에 부합하는 AI를 만드는 데 도움이 됩니다.

이는 여러 직원, 광범위한 리소스, 훌륭한 마케팅 부서를 갖춘 회사에서 개발했다는 사실 덕분에 더 널리 알려진 AI 분야의 큰 발전입니다.

이제 동전의 다른 면을 살펴보겠습니다.

오픈소스 AI의 현황

GPT-4 출시 이후 거대 기술 기업들이 AI 경쟁에 뛰어들었을 뿐만 아니라 다른 독립적인 프로젝트도 등장했습니다. TensorFlow 및 PyTorch와 같은 오픈소스 ML 프레임워크를 통해 가능해졌습니다.

Stability AI는 Dall-E의 대안인 Stable Diffusion을 출시했으며 많은 기술 애호가들은 예술과 창의성의 본질에 관한 윤리적 우려를 불러일으킬 정도로 그 기능을 광범위하게 실험했습니다.

Meta는 LLaMA (여러 모델 크기와 두 번째 버전 포함)라는 준개방형 대형 언어 모델의 출시를 발표했습니다.

Hugging Face 서비스(예: Gradio, Spaces, Transformers)와 함께 이 모델은 혁명을 촉발했습니다. 왜냐하면 처음으로 전 세계 사람들이 ChatGPT 또는 PaLM과 같은 오픈 소스 기술에 액세스할 수 있게 되었기 때문입니다.

그리고 기술 전문가, 해커, 기술 애호가 그룹에 충분한 시간과 자원이 있으면 어떤 일이 일어나는지 알고 계십니까? 그래, 그들은 미친 듯이 물건을 만들 수 있다.

90년대 인터넷의 출현과 함께 틈새 인터넷 포럼과 IRC 채널은 Hugging Face 토론, GitHub 이슈, Discord 서버로 대체되었습니다.

오픈 소스 성장에 기여한 또 다른 것은 EleutherAI의 Pile 데이터 세트였습니다. 이 이니셔티브는 비지도 학습과 자기 지도 학습을 진행하여 대규모 레이블이 지정된 데이터 세트의 필요성을 줄이는 데 도움이 되었습니다.

대규모 언어 모델, 이를 훈련/미세 조정하기 위한 데이터 세트, 컴퓨팅에 대한 요구 사항 감소로 인해 전체 제품 및 서비스 생태계가 곧 등장했습니다.

(컴퓨팅에 대한 요구 사항이 줄어든다는 것은 LLM이 독점 모델에서 생성된 결과의 품질을 생성하기 위해 많은 매개 변수가 필요하지 않다는 것을 의미하며 이는 LLaMA 13B 및 Mistral 7B 와 같은 모델에서 나타납니다.)

이 공간에는 다른 사람들과 협력하고 싶어하는 모든 사람이 사용할 수 있는 수많은 프로젝트, 사전 훈련되고 미세 조정된 모델, 데이터 세트 및 도구가 있습니다.

이제 Zephyr-chat, LLaMA2-chat, Mistral-instruct 및 Falcon-chat처럼 작동하기 위해 GPT-3/GPT-4를 사용하지 않는 다양한 유형의 챗봇이 있습니다.

Code-LLaMA , CodeGen 및 StarCoder 와 같은 코드 생성 및 지원을 위해 LLM이 미세 조정되었습니다.

Bloom 이라는 개방형 다국어 언어 모델입니다.

LLaVA 및 Fuyu 와 같은 다중 모드 LLM(단순한 텍스트가 아님).

기존의 모든 오픈 소스 모델을 평가하고 순위를 매기는 Hugging Face 리더보드입니다.

RedPajama 또는 OpenOrca 와 같은 LLM 사전 학습 및 미세 조정을 위한 여러 데이터세트입니다.

그리고 가장 최근에는 “AI 에이전트”라고 불리는 자율 모델이 더 많아졌습니다.

가장 인기 있는 것들은 GPT-3.5로 구동되지만 LLaMA를 기반으로 하는 것들도 있습니다.

그리고 우리는 루프에 갇히지 않거나, 설득력 있어 보이지만 부정확하거나 명백히 잘못된 텍스트를 쏟아내지 않고 독립적으로 작업을 완료할 수 있는 에이전트를 구축하기 위해 경쟁하고 있는 것 같습니다.

지난 6개월 동안만 해도 엄청난 진전이 있었고 어느 누구도 둔화될 조짐을 보이지 않고 있다는 것을 확신할 수 있습니다.

앞으로

지난 한 해 동안 우리가 보아온 놀랍고 빠른 속도의 발전에도 불구하고 우리는 여전히 AI 개발 초기 단계에 있습니다. AI 개인 정보 보호, 윤리, 내장된 편견 등과 같이 고려해야 할 다양한 측면을 파악해야 하는 몇 가지 사항이 있습니다.

인생의 모든 것과 마찬가지로, 어느 쪽도 완전히 틀린 것은 없고 다른 쪽은 옳습니다. 독점 AI와 오픈 소스 AI 모두 장단점이 있습니다.

독점 AI는 더 많은 양의 리소스를 활용하여 새롭고 더 강력한 모델을 교육하는 동시에 더 넓은 규모의 사람들에게 액세스를 제공할 수 있습니다. 그러나 그들은 블랙박스처럼 작동하고 관찰성이 부족하며 그들의 관심은 일반 소비자보다 돈이 있는 대기업에 더 집중될 수 있습니다.

반면 오픈 소스 AI는 전 세계적인 협업, 투명성, 개방형 혁신의 이점을 누리고 있습니다. 그러나 더 야심찬 계획을 위한 조직과 자원이 부족하고, 더 엄격한 규정이 제정되면 위험에 처하게 됩니다.

이제 문제는 어떻게 AI의 발전을 하이브리드 방식으로 유지할 수 있느냐는 것입니다.

안전과 개인 정보 보호를 최우선으로 생각하는 책임감 있는 방식으로 이 혁신을 추진하는 데 필요한 자원과 공간에서 가장 뛰어난 인재들과 공동으로 협력할 수 있는 방법입니다.

소수의 이익과 이익이 나머지 사람들의 이익과 이익보다 우선하지 않는 방식입니다. AI와 같은 혁신적인 기술이 강대국의 "적"으로 간주되는 집단에 대해 사유화되거나 제한되거나 무기화되지 않는 방식입니다.

우리는 우리가 내리는 결정과 기술을 다루는 방식에 따라 미래가 어떻게 될지, 좋든 나쁘든 결정되는 독특한 순간에 살고 있습니다.

읽어 주셔서 감사합니다.

잊지 마세요 해커눈 구독하기 그리고 앞으로 나올 기사도 놓치지 마세요.