1,434 판독값

AI 연구의 최전선: 다중 양식, 에이전트, 오픈 소스 LLM 및 그 이상

~에 의해 Vik Bogdanov9m2024/07/04

너무 오래; 읽다

Portal.ai의 CTO 겸 공동 창립자이자 Amazon의 전 AI 연구 과학자인 Hamudi Naanaa와 함께 AI 연구의 차세대 개척지를 탐구합니다. 우리는 AI의 현재 상태, 다중 양식 및 AI 에이전트의 중요성, 오픈 소스 개발의 중요성, AI의 윤리적 과제에 대해 논의합니다. Naanaa는 AI로의 여정, AI가 다양한 산업에 미치는 잠재적 영향, 비즈니스 관리 관행을 변화시키는 AI의 역할을 공유합니다. 그는 책임감 있는 AI 개발의 필요성을 강조하고 개인용 로봇과 AI가 공동 개발한 의약품을 포함해 AI의 흥미로운 미래 가능성을 강조합니다.

featured image - AI 연구의 최전선: 다중 양식, 에이전트, 오픈 소스 LLM 및 그 이상

나는 최근 저자가 2023년이 AI에 열광한 해였고 기업 이사회와 언론에서 화제가 되었으며 심지어 공개 주식 시장 성과를 주도하는 반면, 2024년은 탐험과 발견의 해가 될 것이라고 주장하는 기사를 접했습니다. 그는 AI의 현재 상태를 잠재력이 넘치지만 여전히 무정형인 '원시 수프' 단계에 비유하고, 우리가 AI 탐색 단계에서 너무 빨리 적극적 활용으로 돌진하여 빠르고 쉬운 결과를 추구했다고 주장합니다. 이제 '리셋 버튼을 누를 시간'이며 의미 있는 가치 창출을 향한 AI를 더욱 탐구해 보세요.

이 기사는 나에게 큰 감동을 주었고, AI 연구의 현재와 미래를 형성하는 마음을 이해하려는 호기심을 불러일으켰습니다. 더 깊은 통찰력을 얻기 위해 저는 Portal.ai의 CTO 겸 공동 창업자 인 Mohammad (Hamudi) Naanaa , 전 Amazon의 AI 연구 과학자, Apple의 R&D Lab Manager를 인터뷰했습니다. 우리의 대화는 AI 탐색의 현재 상태와 다음 개척지, 책임감 있고 윤리적인 AI 개발의 과제와 기회, 섀도우 AI의 잠재적 영향, 강력한 AI 전문 지식을 구축하는 데 필요한 사항 등에 대해 자세히 설명합니다.

독서를 즐겨보세요!

하무디님, AI 연구 분야에 관심을 갖게 된 계기는 무엇이며, 현재 구체적으로 어떤 분야를 탐구하고 계시나요?

AI에 대한 나의 여정은 대학 시절 획기적인 AlexNet 논문을 통해 시작되었습니다. 이미지를 분류하기 위해 모델을 훈련한다는 아이디어는 경외심을 불러일으켰으며 기존 소프트웨어로는 달성할 수 없는 일이었습니다. 이러한 복잡성에 영감을 받아 저는 신경망을 더 잘 이해하기 위해 AI 연구를 탐구했습니다. 저는 이미지 분류를 해결할 수 있다면 훨씬 더 복잡한 데이터와 문제를 해결하고 궁극적으로 지능을 구축하는 것은 시간 문제일 뿐이라는 강한 직관을 가지고 있었습니다. 나는 그 여정에 참여하고 싶었습니다.

처음에 저는 생성 AI, 특히 GAN과 확산 모델의 창의적인 가능성에 매료되어 컴퓨터 비전에 뛰어들었습니다. 나중에는 트랜스포머 페이퍼를 통한 언어 모델의 폭발적인 증가가 나의 관심을 끌었고, 진정한 인공지능의 꿈이 더욱 가까워졌습니다. 오늘 저는 텍스트와 이미지 모두에서 생성 AI의 흥미로운 교차점에 있습니다.

AI 탐사의 다음 개척지는 무엇이라고 보시나요?

몇 년이 지난 지금도 우리는 AI의 잠재력을 표면적으로만 살펴보고 있습니다. 매우 뜨거운 주제입니다. 수많은 트렌드가 오고 가는 것을 볼 수 있으며, 그 경계는 매일 형성되고 있습니다.

이 개척지에서 눈에 띄는 방향 중 하나는 다중 양식 입니다. 세상은 단순한 텍스트 그 이상입니다. 저는 텍스트, 이미지, 오디오 등을 통합하는 기본 다중 모드 AI에서 밝은 미래를 봅니다. 많은 주요 AI 회사가 이미 이를 수용하고 있으며 다양한 입력을 지원하는 기본 모델을 볼 수 있습니다.

제가 기대하고 기대하는 또 다른 영역은 에이전트 입니다. 이러한 시스템에는 관찰, 추론, 상태, 행동 및 반성이 포함된 완전한 피드백 루프가 있습니다. 이는 오늘날 대부분의 LLM 기반 AI에서 볼 수 있는 "입력-출력" 패러다임을 뛰어넘습니다.

입출력 토큰 머신과 같은 변환기 기반 아키텍처가 "진정한" 지능에 충분한지에 대한 지속적인 논쟁이 있습니다.

근본적으로 새로운 아키텍처를 탐색하는 것은 유망하지만 도전적인 방향입니다. 트랜스포머의 일부 결함을 해결할 수 있는 신경 튜링 머신(NTM)이나 차동 신경 컴퓨터(DNC)와 같은 상태 저장 메모리 기반 아키텍처의 르네상스가 나타날 수도 있습니다.

이러한 모든 발전은 로봇 공학에 혁명을 일으켜 예상보다 빨리 지능형 비서를 일상 생활에 도입할 것입니다. 나는 몇 년 안에, 어쩌면 그보다 더 짧은 시간 안에 우리 사이를 걷는 최초의 로봇을 보게 될 것이라고 믿습니다.

그러나 기술을 개발하는 것과 그 위에 유용한 제품을 만드는 것은 또 다른 문제입니다.

다중 모드 오디오 네이티브 AI의 가치는 사용자가 자신의 감정을 담은 극도로 개인화된 노래를 생성할 수 있다는 것입니다. 동일한 핵심 기술이지만 올바른 포장에 담긴 제품은 사람들에게 힘을 실어줍니다. 그리고 여기에서 모델이 더욱 안정적이고 제어 가능하며 강력해지면서 곧 많은 탐색이 이루어지는 것을 볼 수 있습니다.

다중 모드 AI 시스템이 인간과 기술 간의 상호 작용을 어떻게 변화시키고 있다고 보시나요? 멀티모달 AI가 가장 큰 영향을 미칠 특정 산업이나 애플리케이션이 있습니까?

멀티모달 AI는 이미 우리가 기술과 상호 작용하는 방식을 파괴하고 있습니다. 한때 사람들이 웹사이트에서 무시했던 간단한 텍스트 기반 도구였던 챗봇은 이제 새로운 디자인의 중심에서 정교한 다중 모드 인터페이스로 진화하고 있습니다.

다중 양식은 새로운 상호 작용 패턴을 가능하게 합니다. Duolingo 또는 Khan Academy 와 같은 교육용 앱을 사용해보세요. AI 파트너에게 텍스트를 작성하면서 언어 기술을 연습하고, 음성 대화에서 발음을 향상시키며, 사진에서 수학 방정식을 보여줄 수 있는 것은 기술과 보다 자연스럽게 상호 작용하여 생산성과 참여도를 높이는 완전히 새로운 방법입니다.

나는 사용자가 다른 앱을 탐색하지 않고도 지침을 제공하고 결과를 받을 수 있는 슈퍼 앱이나 심지어 새로운 운영 체제가 있는 미래를 상상합니다.

예를 들어, 음식을 주문하기 위해 아이콘과 텍스트를 클릭하는 대신, 말하거나 몸짓을 하거나 심지어 특정 요소를 바라보면서 좀 더 인간적으로 상호작용할 수도 있습니다. Humane AI Pin 및 Rabbit R1 과 같은 얼리 어답터는 가능성을 보여주지만 예측 불가능성과 개선의 여지도 강조합니다. 개발자와 AI 연구자로서 우리는 이러한 문제를 해결해야 하며, 저는 그렇게 될 것이라고 낙관합니다.

다중 모드 AI 시스템은 다양한 형태의 의사소통 사이의 장벽을 허물어 기술과 상호 작용하는 방식에 혁명을 일으킬 것입니다. 우리는 아직 인터페이스를 구축하는 새로운 방법을 탐색하는 시작 단계에 있지만 이미 눈에 띄는 공통 패턴이 하나 있습니다.

사전 정의된 상호 작용 패턴을 갖춘 기존 시스템은 재창조될 것입니다.

AI 연구가 빠르게 발전함에 따라 AI의 책임 있는 개발을 보장하고 잠재적인 부정적인 영향을 완화하는 데 있어 우리가 직면한 가장 큰 과제는 무엇입니까?

기술이 빠르게 발전하고 그 의미가 여전히 이해되고 있기 때문에 AI의 윤리적 환경을 탐색하는 것은 복잡하면서도 중요합니다. 우리는 편견과 의도하지 않은 결과를 예측하고 완화해야 합니다.

일부 문제는 인간의 결함과 관련된 윤리적 영향에서 비롯됩니다. 예를 들어, AI 동반자 구축을 목표로 하는 프로젝트는 외로움을 극복하는 데 도움이 될 수 있습니다. 그럼에도 불구하고 사람들이 실제 상호 작용보다는 AI에서 편안함을 찾도록 장려함으로써 상황을 악화시킬 수도 있습니다. 이는 제작자에게 앱의 의미와 이를 해결하는 방법에 대한 질문을 제기합니다. 이는 겉으로는 단순해 보이는 앱에서 발생하는 근본적인 질문의 한 예일 뿐이며, 앱의 존재로 인한 부작용은 물론이고 아직 상상하지 못한 것이 더 많습니다.

생성된 이미지에서 사람의 왜곡된 역사적 표현 과 같은 대형 기술 분야의 최근 사건은 AI 기술의 급속한 발전과 함께 발생하는 윤리적 우려와 의도하지 않은 결과를 포함한 중요한 과제를 강조합니다.

간단한 대답은 없지만 오픈 소스 LLM 개발(모델과 모델이 훈련한 데이터 모두 노출)을 통해 투명성을 보장하고 엔지니어와 과학자뿐만 아니라 다양한 배경을 가진 사람들이 참여하는 학제간 접근 방식을 육성하는 것이 중요하다고 생각합니다. 이러한 과제를 해결하기 위한 단계입니다.

이러한 질문을 하는 것이 유일하게 올바른 접근 방식입니다. 우리는 구축될 가장 강력한 기술의 미래를 형성하는 일을 담당하고 있습니다. AI 제작자로서 우리는 고유하고 잠재적인 편견과 이를 완화하는 방법을 고려해야 합니다.

Amazon에서 근무한 이후 어떤 프로젝트나 연구 활동에 참여해 오셨나요? 지금 무슨 일을 하고 있나요?

AI의 마법은 AI가 가장 도움이 될 수 있는 레이저 중심 사용 사례를 이해하는 데 있습니다. Amazon을 떠난 후 저는 친구 Vlad Panchenko 와 토론을 하면서 AI가 인류에게 도움이 될 수 있는 미래와 다양한 방법을 구상했습니다. 한동안 에이전트 시스템을 구축하고 해당 지식을 성공적인 연쇄 창업가로서 Vlad의 경험과 결합하면서 우리는 AI 에이전트를 비즈니스에 어떻게 적용할 수 있는지 생각하기 시작했습니다. 대부분의 기업은 성공에 필요한 최고 수준의 CMO, COO 및 기타 전문가에 대한 접근이 부족합니다. AI는 전례 없는 규모로 정보에 대한 접근을 민주화할 수 있습니다. 우리는 함께 복잡한 비즈니스 프로세스를 작고 식별 가능한 작업으로 분해하여 에이전트를 서로 결합하고 통신할 수 있는 개별 벽돌로 보는 방법을 모색했습니다. 나는 잠재력에 흥미를 느꼈고, 이로 인해 마케팅에서 물류에 이르기까지 일상적인 운영에서 기업을 지원하고 진정으로 중요한 일에 집중할 수 있도록 세계적 수준의 AI 지능을 제공한다는 믿음을 바탕으로 Portal AI 가 탄생하게 되었습니다.

AI가 비즈니스 관리 관행을 어떻게 변화시킬 것으로 예상하시나요?

AI는 반복적인 작업을 자동화하고 의사결정을 향상시켜 비즈니스 관리에 혁신을 가져올 준비가 되어 있습니다.

마케팅, 물류, HR을 처리하는 AI 파트너가 있어 창의적이고 전략적인 업무에 집중할 수 있다고 상상해 보세요. 이러한 변화는 전문 지식에 대한 접근을 민주화하여 모든 비즈니스가 더 높은 수준에서 운영될 수 있도록 할 것입니다.

운영을 간소화하는 AI의 능력은 효율성을 높일 뿐만 아니라 혁신과 성장도 촉진할 것입니다.

AI가 더욱 정교해짐에 따라 직장 무결성 및 사이버 보안과 같은 영역에 '섀도우 AI'가 잠재적으로 미치는 영향에 대해 어떻게 생각하십니까? 이러한 잠재적인 위험을 어떻게 완화할 수 있습니까?

의도하지 않고 종종 숨겨진 AI 사용인 ' 섀도우 AI '는 심각한 위험을 초래합니다. 예를 들어 AI를 사용하여 소셜 미디어 알고리즘을 조작하는 사람들은 AI가 어떻게 오용될 수 있는지 강조합니다. AI 콘텐츠가 인터넷에 넘쳐나면서 무결성과 보안을 유지하는 것이 어려워졌습니다. 윤리적인 AI 연구는 이러한 발전에 보조를 맞춰 투명성과 강력한 보호 장치를 촉진해야 합니다. 이러한 위험을 해결하려면 오용을 방지하기 위한 지속적인 경계와 적응 전략이 필요합니다.

우리는 정말 마음 속에 간직하고 계속 토론해야 할 것들이 많은 새로운 시대에 살고 있습니다.

이 분야의 급속한 발전을 고려할 때 어떻게 최신 발전에 대한 최신 정보를 얻고 AI에 대한 전문 지식을 유지합니까? 빠르게 변화하는 이 분야에서 전문성을 쌓고 싶은 사람에게 어떤 조언을 해주고 싶나요?

모든 것이 너무 빨리 움직이고 변화하고 있어서 정말 좋습니다. 하지만 이는 또한 이미 3개월 안에 무언가가 시대에 뒤떨어지거나 쓸모없거나 구식이 될 가능성이 높다는 것을 의미하기도 합니다. 단지 책을 읽고 이러한 빠른 반복 주기에서 최신 정보를 얻을 수 있는 방법은 없습니다.

해당 분야의 주요 리더와 평판이 좋은 소식통이 있으므로 그들을 팔로우하면 최신 정보를 얻는 데 도움이 됩니다. 더 깊이 있는 연구를 위해 Reddit 및 Twitter/X와 같은 플랫폼에서 관련 뉴스레터와 커뮤니티를 구독하고 있으며, 물론 AI를 사용하여 Reddit의 스레드를 요약합니다.

AI에 대한 전문 지식을 구축하고자 하는 사람에게는 여러 가지 경로가 있습니다. 연구자가 되고 싶다면 강력한 기반을 구축하십시오. AI는 수학에 깊이 뿌리를 두고 있으며 추세가 변하더라도 기본 수학은 동일하게 유지됩니다.

전반적으로 저는 해커톤을 옹호하는 사람입니다. 나는 많이 가봤고 여러 곳을 조직했습니다. 그리고 나는 많은 프로젝트를 봐야 해요. 사람들이 사용할 새로운 것을 배우는 데 좋습니다. 엔지니어, 제품 관리자, CEO 등 누구에게나 한 가지를 추천한다면, 나가서 무언가를 만들고 싶어하는 사람들을 만나고, 손을 더럽히고 직접 만들어 보는 것입니다. 이것이 실제로 사물을 이해하는 가장 좋은 방법입니다. 직관력을 키우고 재미있게 놀 수 있기 때문입니다. 그냥 호기심을 유지하세요!

20년 후의 미래를 내다보면서 일상생활에서 AI의 역할을 어떻게 생각하시나요? 가장 기대되는 부분은 무엇이며, 이 미래의 어떤 측면을 예측하기 가장 어렵다고 생각하시나요?

20년 뒤에도 이 인터뷰를 꼭 읽고 싶습니다! AI는 너무 빠르게 변화하고 있어 20년은 고사하고 20개월 후에 무슨 일이 일어날지 예측하기 어렵다. 우리는 모든 인간의 지능을 하나의 시스템으로 통합하여 지식에 대한 보편적 접근을 허용하는 독특한 순간에 있습니다. 현재 교육과 같은 자원은 균등하게 분배되지 않고 있으며, AI가 여러 면에서 보편적인 이퀄라이저가 되는 데 큰 영향을 미칠 것이라고 믿습니다.

그리고 또 로봇을 만지면 이게 현실이 될 것 같아요. 우리는 보조자로서 우리와 함께 살면서 집안일을 모두 대신해주는 개인용 로봇을 갖게 될 것입니다.

우리는 교사, 코치, 친구 등 초개인화된 제품을 갖게 될 것입니다. 우리는 아직 이러한 실체에 대한 이름조차 갖고 있지 않지만 이미 그런 일이 일어나고 있습니다.

저를 흥분시키는 또 다른 점은 연구의 가속화입니다. AI가 공동 개발한 최초의 약이나 치료법이 나올 것이라는 전망에 저는 정말 기쁩니다. 정말 아름다운 세상이 될 것입니다. 저는 더 나은 미래를 굳게 믿으며 그 미래를 만들기 위해 제가 할 수 있는 모든 일을 하게 되어 기쁩니다.

LinkedIn 프로필에 따르면 귀하는 레바논 태생이고 우크라이나에서 자랐으며 독일에서 교육을 받았습니다. 귀하의 여정과 이러한 다양한 문화적 배경이 귀하를 어떻게 형성했는지 공유해 주실 수 있나요?

좋아요! 저는 레바논에서 태어나 어린 시절 우크라이나로 이주하여 그곳에서 자랐습니다. 우크라이나는 나를 깊이 형성했습니다. 17세에 나는 대학교를 위해 독일로 이주했고, 나중에 가족이 그곳에서 합류하면서 내 경력이 시작되었습니다. 다양하고 똑같이 아름다운 사회에 살면서 나는 그들의 독특한 도전과 기회에 대해 배웠습니다.

현재 AI 연구는 영어 중심의 편견을 가지고 있으며, 대부분의 데이터와 시스템은 영어 사용자에 의해, 영어 사용자를 위해 구축되었습니다. AI가 보편적인 이퀄라이저가 되어야 한다고 믿으며, 진정한 보편적인 AI를 구축하려면 모든 언어를 수용하고 지원해야 합니다. 저는 5개 언어를 구사할 수 있기 때문에 그 모든 언어에 동질감을 느낍니다. 저는 레바논, 우크라이나, 독일 사람입니다. 나는 인간이다. 이러한 경험은 우리를 독특하게 만들면서 우리를 연결하는 것에 대한 귀중한 통찰력을 제공했으며, 나는 모든 노력에서 이 지식을 가지고 다닙니다.