paint-brush
생성적 AI: 진화, 과제 및 미래 동향에 대한 전문가의 통찰력by@elekssoftware
245

생성적 AI: 진화, 과제 및 미래 동향에 대한 전문가의 통찰력

ELEKS11m2024/07/23
Read on Terminal Reader

ELEKS의 전문 분석을 통해 생성 AI의 세계로 뛰어들어 도전과제를 발견하고 미래가 어떻게 될지 알아보세요.
featured image - 생성적 AI: 진화, 과제 및 미래 동향에 대한 전문가의 통찰력
ELEKS HackerNoon profile picture

AI는 오랫동안 기술 애호가와 업계 전문가의 관심을 끌었습니다. 이 기사에서 우리는 AI의 진화를 탐구하고 AI가 제기하는 문제와 앞으로 다가올 새로운 트렌드를 조명합니다.


AI 기술 의 기하급수적인 성장을 관찰하면서 잠재적 이점을 극대화하기 위해 AI 기술의 기능을 포괄적으로 이해하는 것이 점점 더 중요해지고 있습니다. ELEKS의 데이터 과학 부서 책임자인 Volodymyr Getmanskyi는 이 복잡한 영역을 탐구하면서 이 인기 주제에 대한 통찰력과 전문 지식을 공유합니다.

AI 대 GenAI – 주요 차이점 설명

첫째, 생성 AI는 AI 분야의 일부입니다. AI가 주로 인간 작업을 자동화하거나 최적화하는 데 중점을 두는 반면, 생성 AI는 다양한 개체를 생성하는 데 중점을 둡니다. 대화 또는 의사 결정 에이전트 구축, 지능형 자동화, 이미지 인식 및 처리, 번역과 같은 일반적인 AI 작업은 GenAI를 통해 향상될 수 있습니다. 이를 통해 텍스트 및 보고서, 이미지 및 디자인, 음성 및 음악 등을 생성할 수 있습니다.


결과적으로 생성 AI를 일상 작업 및 워크플로에 통합하는 것이 점점 더 원활하고 영향력이 커졌습니다. 어떤 유형의 데이터 생성이 가장 인기가 있는지 궁금할 수도 있습니다. 그러나 대답은 간단하지 않습니다.


다중 모드 모델을 사용하면 다양한 입력을 기반으로 다양한 유형의 데이터를 생성할 수 있습니다. 따라서 사용 통계가 있더라도 생성되는 가장 인기 있는 데이터 유형을 결정하는 것은 어려울 수 있습니다. 그러나 현재 비즈니스 요구에 따라 대규모 언어 모델이 가장 널리 사용됩니다.


이러한 모델은 텍스트와 숫자 정보를 모두 처리할 수 있으며 질문 답변, 텍스트 변환(번역, 맞춤법 검사, 강화) 및 보고서 생성과 같은 작업에 사용할 수 있습니다. 이 기능은 흔하지 않은 이미지나 비디오 생성과 달리 산업 전반에 걸쳐 기업의 운영 활동에서 중요한 부분을 차지합니다.

대규모 언어 모델: 텍스트 생성에서 현대의 거인까지

LLM(대형 언어 모델)은 일종의 딥 러닝 모델, 간단히 말해서 특정 신경망인 거대한 변환기입니다. 일반적으로 LLM은 80억~700억 개의 매개변수를 갖고 있으며 방대한 양의 데이터에 대해 교육을 받습니다. 예를 들어, 가장 큰 데이터세트 중 하나인 Crawl에는 수십 페타바이트에 달하는 지난 10년간의 웹페이지와 정보가 포함되어 있습니다.


타이타닉 난파선에서 살아남은 승객을 설명하는 약 900개의 샘플로 구성된 타이타닉 데이터세트의 크기는 1Mb 미만이며, 생존 확률을 효율적으로 예측할 수 있는 모델은 약 25~100개의 매개변수를 가질 수 있습니다. .


LLM 역시 오랜 역사를 갖고 있으며, 갑자기 등장한 것은 아닙니다. 예를 들어 ELEKS 데이터 과학 부서에서는 2019년에 응답 생성을 위해 GPT-2를 사용했고, 2018년에는 최초의 GPT(생성 사전 훈련 변환기) 모델이 출시되었습니다. 그러나 그것이 텍스트 생성 모델의 첫 등장은 아니었습니다. . 2017년에 변환기 시대가 시작되기 전에는 텍스트 생성과 같은 작업이 다양한 접근 방식을 사용하여 처리되었습니다. 예를 들면 다음과 같습니다.


  • 생성적 적대 네트워크(Generative Adversarial Network) - 생성기가 다른 네트워크나 판별자의 피드백을 기반으로 훈련하는 접근 방식입니다.
  • 오토인코더 - 모델이 입력을 재현하려고 시도하는 일반적이고 잘 알려진 접근 방식입니다.


2013년에는 word2vec과 같은 효율적인 벡터 단어 임베딩이 제안되었고, 훨씬 더 일찍인 이전 세기에는 1964년 Eliza 챗봇과 같은 확률적 및 패턴 기반 생성의 예가 있었습니다. 생성(NLG) 작업과 시도는 수년 동안 존재해 왔습니다.


ChatGPT, GPT, Gemini, Copilot, Claude 등과 같은 현재 LLM 사용자의 대부분은 OpenAI가 공개 액세스를 제안한 InstructGPT의 첫 번째 릴리스 이후만큼 결과가 유망하지 않았기 때문에 이를 인식하지 못할 가능성이 높습니다. 그것. 2022년 11월 ChatGPT의 첫 번째 출시 이후 소셜 미디어에서 수백만 건의 언급이 이루어졌습니다.

AI 규제 논쟁: 혁신과 안전의 균형

오늘날 AI 커뮤니티는 AI 위험 및 규정 준수 요구 사항을 주제로 나누어 AI 규정 및 안전 제어를 옹호하는 사람도 있고 반대하는 사람도 있습니다. 비판자 중에는 메타(페이스북) AI 책임자인 얀 르쿤(Yann LeCun)이 있는데, 그는 그러한 AI 에이전트가 개와 비슷하지도 않은 지능을 가지고 있다고 말했습니다.


Meta AI 그룹(이전 Facebook AI Research)은 Detectron, Llama, SegmentAnything 및 ELF와 같은 무료 및 공개적으로 사용 가능한 AI 모델의 개발자 중 하나입니다. 이러한 모델은 일부 상업적인 제한 없이 무료로 다운로드하여 사용할 수 있습니다. 오픈 액세스는 전 세계 AI 커뮤니티로부터 확실히 호평을 받았습니다.


이러한 시스템은 여전히 매우 제한적입니다. 그들은 엄청난 양의 텍스트인 텍스트에 대해서만 훈련을 받았기 때문에 현실 세계의 근본적인 현실을 전혀 이해하지 못합니다.


— Yann LeCun, Meta의 수석 AI 과학자


규제에 대한 우려도 당국자들 사이에서 제기됐다. 예를 들어, 에마뉘엘 마크롱 프랑스 대통령은 인공지능 개발을 다루기 위해 고안된 획기적인 EU 법안이 미국, 영국, 중국의 경쟁업체에 비해 유럽 기술 기업을 방해할 위험이 있다고 경고했습니다.


반면 AI 규제 지지자들도 있다. Tesla CEO인 Elon Musk에 따르면 AI는 문명의 미래에 대한 가장 큰 위험 중 하나입니다. 이는 비공개/유료 AI 대표와 동일하지만, 여기서 그러한 입장을 실제로 자극하는 것은 경쟁 AI 모델의 확산을 제한하기 위한 시장 경쟁일 수 있습니다.

EU 인공지능법 개요

2023년에 EU 의회는 유럽 연합 내에서 AI 기술 사용을 관리하는 최초의 포괄적인 규칙 세트인 AI법을 통과시켰습니다. 이 법안은 책임감 있고 윤리적인 AI 개발 및 구현에 대한 선례를 설정합니다.


EU AI법에서 다루는 주요 문제:

  • 첫째, 개인 데이터 처리, 생체 인식 등을 다루는 GDPR(EU), APPI(일본), HIPPA(미국), PIPEDA(캐나다)와 같은 다양한 표준에 이미 설명된 것처럼 개인 데이터에는 논리적 한계가 있습니다.


  • 여기에는 모델 편견이 상당한 영향을 미쳐 잠재적으로 차별로 이어질 수 있는 채점 시스템 또는 모든 형태의 사람 분류가 연결되어 있습니다.


  • 마지막으로 일부 모델이 비즈니스 KPI(전환율, 과잉 소비)를 높이려고 시도할 수 있는 행동 조작이 있습니다.

AI 모델 준비 및 사용: 과제와 우려 사항

모델 준비, 사용 및 기타 숨겨진 활동과 관련된 많은 문제와 우려 사항이 있습니다. 예를 들어 모델 학습에 사용되는 데이터는 개인 데이터로 구성되어 있으며 해당 목적으로 승인되지 않았습니다. 글로벌 제공업체는 별도의 공지 없이 숨겨진 모드에서 모델 훈련에 사용할 수 있는 비공개 서신(이메일) 또는 기타 비공개 자산(사진, 동영상)에 중점을 둔 서비스를 제공합니다.


최근 텍스트 쿼리를 기반으로 비디오를 생성하는 비공개 OpenAI 서비스인 SORA 교육에 비공개 비디오를 사용하는 것과 관련하여 OpenAI의 CTO에게 질문이 있었지만 그녀는 명확한 답변을 제공할 수 없었습니다.


또 다른 문제는 데이터 라벨링 및 필터링과 관련될 수 있습니다. 우리는 여기에 관련된 전문가의 개인적 특성, 기술, 고정관념 및 지식을 알지 못하며 이로 인해 데이터에 원치 않는 진술/콘텐츠가 도입될 수 있습니다. 또한 윤리적인 문제도 있었습니다. 글로벌 GenAI 제공업체 중 일부가 케냐의 라벨러를 고용하고 이들에게 낮은 임금을 지불했다는 정보가 있었습니다.


모델이 완벽해 보이는 부정확하거나 부분적으로 부정확한 답변을 제공하는 모델 편향과 소위 모델 환각도 문제입니다. 최근 ELEKS 데이터 사이언스 팀은 모델에 대한 일부 데이터를 표시하고 모델이 해당 데이터를 기반으로 답변을 요약하거나 제공하는 고객의 검색 증강 생성(RAG) 솔루션을 개선하기 위해 노력하고 있었습니다.


그 과정에서 우리 팀은 많은 최신 온라인(대규모이지만 유료) 또는 오프라인(소규모 및 공개) 모델이 기업 이름과 번호를 혼동한다는 사실을 깨달았습니다.


  • 우리는 몇몇 회사의 재무제표와 감사 정보가 포함된 데이터를 가지고 있었고 요청은 회사 A의 수익을 보여 달라는 것이었습니다. 그러나 A사의 매출은 데이터에 직접 제공되지 않아 계산이 필요했다. LLM Arena 벤치마크의 리더를 포함한 대부분의 모델은 B 회사에 속한 잘못된 수익 수준으로 응답했습니다. 이 오류는 "Ltd", "Service" 등과 같은 회사 이름의 부분적으로 유사한 문자 조합으로 인해 발생했습니다.


    여기서는 신속한 학습도 도움이 되지 않았습니다. "자신이 없거나 일부 정보가 누락된 경우 모른다고 대답해 주세요"와 같은 설명을 추가해도 문제가 해결되지 않았습니다.


  • 또 다른 점은 숫자 표현에 관한 것입니다. LLM은 숫자를 토큰으로 인식하거나 심지어 0.33333과 같은 많은 토큰도 바이트 쌍 인코딩 접근 방식에 따라 '0.3' 및 '3333'으로 인코딩될 수 있으므로 복잡한 숫자를 처리하기 어렵습니다. 추가 어댑터 없이 변환.


최근 퇴역한 미 육군 장군 Paul M. Nakasone을 OpenAI 이사회에 임명하면서 엇갈린 반응이 나타났습니다. 한편으로 Nakasone의 사이버 보안 및 인텔리전스에 대한 광범위한 배경은 AI 연구 및 개발을 다루는 회사에 중요한 사이버 공격을 방어하기 위한 강력한 전략을 구현할 가능성이 있는 중요한 자산으로 간주됩니다.


반면 나카소네 총리의 군사·정보 배경(전 국가안보국(NSA) 국장, 미 사이버사령부 수장) 임명이 정부의 감시와 개입 확대로 이어질 수 있다는 우려도 나온다.


우려되는 점은 Nakasone이 정부 기관에서 OpenAI의 데이터 및 서비스에 대한 보다 광범위한 접근을 촉진할 수 있다는 것입니다. 따라서 이번 임명이 서비스 이용, 데이터, 정부 기관의 요청, 서비스 자체의 한계 모두에 영향을 미칠 수 있다는 우려도 있습니다.


마지막으로 생성된 코드 취약성, 모순된 제안, 부적절한 사용(시험 통과 또는 폭탄 생성 방법에 대한 지침 받기) 등과 같은 다른 우려 사항도 있습니다.

보다 강력한 결과를 위해 LLM 사용을 개선하는 방법

첫째, LLM 사용이 필요한지, 그리고 이것이 일반적인 기초 모델이 되어야 하는지를 결정하는 것이 중요합니다. 어떤 경우에는 목적과 분해된 작업이 그다지 복잡하지 않으며 철자 오류, 패턴 기반 생성, 구문 분석/정보 검색과 같은 간단한 오프라인 모델로 해결할 수 있습니다. 또한 일반 모델은 LLM 통합의 의도된 목적과 관련되지 않은 질문에 답할 수 있습니다.


회사에서 추가 어댑터(전처리기 및 후처리기) 없이 온라인 LLM 통합(예: GPT, Gemini)을 권장했는데 예상치 못한 동작이 발생한 사례가 있습니다. 예를 들어, 사용자가 자동차 딜러 챗봇에게 Navier-Stokes 유체 흐름 방정식을 풀기 위한 Python 스크립트를 작성해 달라고 요청했고, 챗봇은 "물론이죠! 그렇게 할게요."라고 말했습니다.


다음으로 공개 및 오프라인, 유료 및 오프라인 중 어떤 LLM을 사용할 것인지에 대한 질문이 옵니다. 결정은 작업의 복잡성과 컴퓨팅 가능성에 따라 달라집니다. 온라인 및 유료 모델은 더 크고 성능이 더 높은 반면, 오프라인 및 공개 모델은 호스팅에 상당한 비용이 필요하며 종종 최소 40Gb의 VRAM이 필요합니다. 온라인 모델을 사용할 때는 공급자와 공유되는 민감한 데이터를 엄격하게 제어하는 것이 중요합니다.


일반적으로 이러한 경우에 대해 우리는 컨텍스트를 보존하기 위해 쿼리를 크게 변경하지 않고 재무 세부 정보나 개인 계약과 같은 개인 정보나 민감한 정보를 제거할 수 있는 전처리 모듈을 구축하고 필요한 경우 기업 규모나 대략적인 위치와 같은 정보를 남겨 둡니다.


모델의 편향을 줄이고 환각을 피하는 첫 번째 단계는 올바른 데이터나 맥락을 선택하거나 후보의 순위를 지정하는 것입니다(예: RAG의 경우). 때로는 벡터 표현과 코사인 유사성과 같은 유사성 메트릭이 효과적이지 않을 수 있습니다. 이는 "no"라는 단어의 존재나 이름의 약간의 차이(예: Oracle과 Orache)와 같은 작은 변형이 상당한 영향을 미칠 수 있기 때문입니다.


후처리의 경우 신뢰도가 낮을 경우 "모름"으로 응답하도록 모델에 지시하고 모델 응답의 정확성을 확인하는 검증 어댑터를 개발할 수 있습니다.

LLM 분야의 새로운 동향과 미래 방향

LLM 분야에는 수많은 연구 방향이 존재하며 매주 새로운 과학 기사가 나옵니다. 이 문서에서는 변환기/LLM 최적화, 견고성, 효율성(예: 크기나 매개변수 수를 크게 늘리지 않고 모델을 일반화하는 방법 등), 일반적인 최적화 기술(예: 증류), 입력을 늘리는 방법(컨텍스트) 등 다양한 주제를 다룹니다. 길이.


다양한 방향 중 최근 가장 눈에 띄는 방향으로는 토큰 혼합, 전문가 혼합, 깊이 혼합, 생각의 뼈대, RoPE, 생각 연쇄 촉진 등이 있습니다. 각각이 무엇을 의미하는지 간략하게 설명하겠습니다.


  1. MoE(Mixture-of-experts)는 다른 변압기 아키텍처입니다. 일반적으로 다양한 지식을 나타내는 여러 개의(Mixtral에서는 8개) 또는 다수의 조밀/평탄화된 레이어로 구성된 동적 레이어가 있습니다. 이 아키텍처에는 스위치 또는 라우팅 방법이 포함됩니다. 예를 들어 어떤 전문가가 어떤 토큰을 처리해야 하는지 선택할 수 있는 게이팅 기능을 통해 토큰 또는 토큰 그룹당 계층("전문가") 수를 한 명의 전문가(스위치 계층)로 줄일 수 있습니다. ).


    이를 통해 입력 부분에 대해 서로 다른 하위 모델(전문가)을 사용하여 효율적인 모델 확장이 가능하고 성능이 향상되므로 하나의 일반 레이어와 더 큰 레이어를 사용하는 것보다 더 효과적입니다.


  2. 토큰 혼합은 언급된 전문가 혼합과 연결되어 있으며, 여기서 특정 전문가에 대한 중요성(소프트맥스 활성화)에 따라 토큰을 그룹화합니다.


  3. Mixture-of-Depth 기술은 특히 라우팅 측면에서 언급된 MoE와도 연결됩니다. 이는 컴퓨팅 그래프(컴퓨팅 예산)를 줄여 어텐션 메커니즘에 사용될 상위 토큰으로 제한하는 것을 목표로 합니다. 특정 시퀀스에 대해 덜 중요하다고 간주되는 토큰(예: 구두점)은 건너뜁니다. 이로 인해 동적 토큰 참여가 발생하지만 k(상위 k 토큰)개의 토큰 수는 고정되어 있으므로 컴퓨팅 예산(또는 선택한 k)에 따라 크기를 줄일 수 있습니다.


  4. 생각의 뼈대는 LLM 확장에 효율적이며 병렬화할 수 있는 포인트로 구성된 기본 뼈대 요청을 기반으로 완료 부분(모델 응답)을 병렬로 생성할 수 있습니다.


  5. 예를 들어 입력 크기와 같은 다른 문제도 있습니다. 사용자는 LLM에 많은 양의 정보, 때로는 책 전체를 제공하면서 매개변수 수를 변경하지 않고 제공하기를 원하는 경우가 많습니다. 다음은 동적 위치 인코딩 및 배율 인수를 사용하여 입력 임베딩을 외삽하거나 보간할 수 있는 ALiBi(선형 바이어스가 있는 주의 레이어)RoPE(로타리 위치 임베딩)의 두 가지 알려진 방법으로 사용자가 비교하여 컨텍스트 길이를 늘릴 수 있도록 합니다. 훈련에 사용되었던 것입니다.


  6. 몇 번의 프롬프트(사용자가 맥락에서 LLM에 대한 감독 제공)의 예인 사고 사슬 프롬프트는 질문을 여러 단계로 분해하는 것을 목표로 합니다. 대부분 논리를 일부 계산 계획으로 분할할 수 있는 경우와 같은 추론 문제에 적용됩니다. 원본 논문의 예: "Roger는 5개의 테니스 공을 가지고 있습니다. 그는 테니스 공 캔 2개를 더 구입합니다. 각 캔에는 테니스 공 3개가 있습니다. 지금 그가 가지고 있는 테니스 공은 몇 개입니까? 생각 계획: Roger는 공 5개로 시작했습니다. 캔 2개 테니스 공 3개는 각각 테니스 공 6개입니다. 5 + 6 = 11. 답은 11입니다.


그 외에도 많은 방향이 있으며, 매주 새로운 중요한 논문이 그 주위에 등장합니다. 때로는 데이터 과학자가 이러한 모든 과제와 성과를 따르는 데 추가적인 문제가 있을 수 있습니다.

최종 사용자는 최신 AI 개발에서 무엇을 기대할 수 있습니까?

또한 요약하면 다양한 솔루션을 제한하고 최종적으로 사용 가능한 모델의 일반화 또는 현장 적용을 초래하는 더 강력한 AI 규정이 있을 수 있다는 많은 추세가 있습니다. 다른 추세는 대부분 기존 접근 방식의 개선에 관한 것입니다. 예를 들어 필요한 매개변수 및 메모리 수를 줄이는 것입니다(예: 양자화 또는 심지어 1비트 LLM – 각 매개변수는 3진수입니다(-1, 0, 1 값을 사용할 수 있음)).


따라서 오프라인 LLM 또는 확산 변환기(DiT – 최신 확산 모델 및 Visual Transformers 후속 모델(이미지 생성 작업의 주요))가 휴대폰에서도 실행될 것으로 예상할 수 있습니다(현재는 Microsoft의 Phi-2 모델과 같은 몇 가지 예가 있습니다). 생성 속도는 최신 Snapdragon 기반 Android 기기에서 초당 약 3-10개 토큰입니다.


또한 디지털 트윈까지 더욱 발전된 개인화(이전의 모든 사용자 경험과 피드백을 사용하여 보다 적합한 결과 제공)가 가능해집니다. 보조자/모델 사용자 정의 및 마켓플레이스, 모든 것을 위한 단일 모델(다중 모드 방향), 보안(개인 데이터 작업, 인코딩 등을 위한 보다 효율적인 메커니즘) 등 현재 사용할 수 있는 다른 많은 것들이 개선될 것입니다. 다른 사람.


귀하의 비즈니스를 위해 AI의 잠재력을 활용할 준비가 되셨습니까? ELEKS 전문가에게 문의하세요 .