자사 데이터가 돌아왔습니다… 친구의 도움을 받아. Vector, RAG 및 LLAMA 3가 어떻게 큰 변화를 주도하고 있습니까?
지난 5년 동안 데이터 인프라를 둘러싼 지배적인 이야기는 기업이 사용자와 고객에 대해 가능한 한 많은 정보를 획득함에 따라 데이터를 소유하고 활용하는 것이 중요하다는 점을 강조해 왔습니다. 개인 정보 보호 규정이 강화됨에 따라 광고 네트워크나 Google, Meta , Amazon 과 같은 플랫폼과 같은 제3자 데이터 운영자에 의존하는 대신 자체적으로 데이터를 수집해야 합니다. 기업들은 이러한 이야기에 동조하여 변화를 이루었습니다.
하지만 최고의 데이터를 위한 전쟁에서 자사가 정말 더 나은가요? 그 자체로는 아니지만 벡터, RAG와 같은 프레임워크, Llama 3 과 같은 오픈 소스 기반 모델의 도움을 받을 수 있습니다.
자사 데이터 에 대한 주장은 일반적으로 다음과 같습니다. 데이터 개인 정보 보호 에 대한 요구가 증가하는 가운데 기업은 데이터 획득 및 관리에 대한 더 나은 관리자가 되어야 합니다. 소비자는 점점 더 누가 자신의 개인 정보를 보유하고 있는지, 어떻게 얻었는지, 왜 보유하고 있는지, 그 정보로 무엇을 하고 있는지 알고 싶어하며 일반적으로 이러한 질문에 대한 답변을 좋아하지 않습니다.
그러나 자사로의 전환이 개인정보 보호에 관한 전부는 아닙니다. 쿠키 없는 미래로 나아가면서 제3자 데이터의 가치가 사라질 것이라는 개념도 있습니다. 기업은 예전처럼 세부적인 세부정보를 얻을 수 없는데 왜 예전보다 더 적은 양의 서비스를 제공하는 데 예산을 투자해야 할까요?
그리고 대형 플랫폼과 광고 네트워크가 예상치 못한 변화를 가져올 것이라는 끊임없는 우려가 있습니다. 예를 들어, 알고리즘을 변경하거나, 특정 유형의 데이터에 대한 액세스를 제한하거나, 사전 통지 없이 비즈니스 성과에 해를 끼칠 수 있는 방식으로 광고 정책을 변경할 수 있습니다. 다른 회사의 관행에 의존하면 취약해집니다. 기업은 이미 데이터 전략에 너무 많은 시간, 돈, 리소스를 투자했기 때문에 정체감을 느낍니다. 이러한 관점에서 볼 때, 데이터에 대한 통제권을 되찾기 위한 노력이 필수적으로 보입니다. 하지만 실용적인가요?
자사 데이터에 도박을 한 기업의 초기 결과는 기대에 미치지 못했습니다. 우리는 변화를 겪은 소비재 기업의 사례를 보고 있습니다.
그럼에도 불구하고, 현재 자사 데이터에 대한 의존도와 해당 데이터를 추출하는 관행은 오늘날 더욱 어려운 시기를 겪고 있는 여러 회사의 공통성입니다. 분석가, VC 및 마케팅 담당자가 자사 데이터의 우선 순위를 정하는 것이 잘못되었는지 스스로 묻게 될 만큼 눈에 띕니다.
현재 획득 및 활용되는 자사 데이터의 단점은 종종 장치 ID의 사라짐, IP 주소 변경, 소비자의 가짜 이메일 채택 및 광고 차단기를 과소평가하는 것으로 간주됩니다. 사실이지만 훨씬 더 중요한 문제가 작용하고 있습니다.
첫째, 인재 격차가 크다. Big Tech와 플랫폼 회사가 최고를 차지합니다. 그들은 제공할 수 있는 것이 가장 많기 때문에 신흥 소비자 회사가 수집 및 분석되는 정보를 이해하는 데 필요한 데이터 과학자 및 ML 인재를 확보하기 위해 경쟁하기가 어렵습니다. 정말 뛰어난 인재가 없으면 기업은 어려움을 겪습니다.
실제 툴링 문제도 있습니다. 기업이 사용할 수 있는 서비스는 거대 기술 기업이 내부적으로 자랑하는 도구(인재 격차의 요인이 될 수 있음)와 거의 동일하지 않습니다. 툴링은 변화를 가져오며 대부분의 회사는 지금 당장 경쟁할 수 없습니다.
마지막으로 볼륨 문제가 있습니다. Big Tech와 광고 네트워크에는 엄청난 양의 데이터가 있습니다. 이들 회사는 모델을 효과적으로 실행하기 위해 수천억 개의 데이터 포인트를 모으고 익명화합니다. 이와 대조적으로, 회사에 작업할 데이터만 있는 경우 ML이 약속한 대로 작동하기에는 충분하지 않습니다.
이러한 문제가 심각해 보이지만 이제 자사 데이터의 잠재력과 필요성을 포기해야 할까요? 안 돼요!
자사 데이터를 방해하는 가장 큰 문제는 기업이 데이터에 액세스하는 방법입니다. 지금까지 기업은 구세계 접근 방식을 취했습니다. 비즈니스에 필요한 데이터에서 가치를 추출하려면 모델을 처음부터 새로 구축해야 합니다. 이를 위해서는 시간과 돈, 그리고 무엇보다도 재능이 필요합니다. ML 엔지니어와 데이터 과학자가 얼마나 뛰어난지에 따라 다릅니다. 그러나 위에서 논의한 것처럼 이 접근 방식이 타사 데이터를 활용하는 것보다 더 효과적으로 작동하도록 할 수 있는 인재가 충분하지 않습니다. 재능이 부족하면 병목 현상이 발생합니다.
그러나 이것이 자사 데이터를 포기해야 한다는 의미는 아닙니다. 우리가 접근하는 방식을 바꾸면 됩니다. 오늘날 가능한 신세계에서는 벡터와 벡터 임베딩이 핵심입니다. 벡터는 데이터 포인트의 특징이나 속성을 나타낼 수 있는 일반적인 수학적 개체이며, 임베딩 모델은 데이터의 패턴을 분석하여 데이터에서 학습된 정보가 가득하고 의미 있는 표현을 생성합니다. 의미론적 관계를 포착합니다. 벡터 임베딩은 사용자 또는 고객에 대해 알고 있는 모든 것을 인코딩하고 해당 정보를 분석 시스템에 액세스할 수 있게 하거나 사용자 경험을 개인화하거나 사기 행위를 포착하는 데 활용할 수 있는 형식입니다. 가능성은 너무 많습니다. 벡터는 근본적으로 다른 방식으로 분석을 강화할 수 있기 때문에 엄청난 변화를 주도할 준비가 되어 있습니다.
검색 증강 생성(RAG)은 현재 가능한 모든 것에 대해 많은 관심을 불러일으키고 있지만 벡터 임베딩은 RAG를 유용하게 만드는 요소입니다. 이는 컨텍스트, 응답, 검색 통합 및 모델 미세 조정을 돕는 프레임워크의 핵심 구성 요소입니다. 고품질 벡터를 생성하고 이를 올바르게 쿼리하는 것은 모든 RAG 시스템이 실제로 작동할 수 있도록 하는 중요한 작업입니다. 다른 프레임워크도 있지만 RAG는 특히 자사 데이터 혁명에 매우 적합합니다.
좋은 것 같아요. 벡터와 벡터 임베딩을 사용하는 방법을 모두 알아봅시다. 이것은 완전한 대답이 아닙니다. 제한된 데이터 세트 및 도구와 같은 문제가 남아 있습니다. 모든 것이 아직 아름답게 마무리되지는 않았지만 곧 그렇게 될 것이라고 믿습니다. 7월에 더욱 강력한 Llama 3에 자리를 내줄 Meta의 Llama 2와 같은 사전 훈련된 오픈 소스 기반 모델이 공평한 경쟁의 장을 마련할 수 있기 때문입니다. BigTech에 비해 데이터량이 부족하다는 문제가 완화됩니다. 크고 다양한 데이터 세트에 대해 사전 훈련된 오픈 소스 모델을 사용함으로써 해당 모델에는 일정 수준의 지식과 이해가 내장되어 있습니다. 기업은 특정 도메인이나 작업에 대해 Llama 2(또는 Llama 3)를 세부적으로 조정하기만 하면 됩니다. 데이터. 많은 경우 더 이상 모델을 처음부터 훈련할 필요가 없기 때문에 병목 현상이 완화됩니다.
Llama는 기업이 텍스트를 처리하는 데 도움을 주지만 기업에서 사용하는 대부분의 데이터는 텍스트가 아니라는 점을 고려하면 이는 지나치게 단순화된 것처럼 들릴 수 있습니다. 회사가 운영하는 정형 데이터는 이 프로세스에 통합되어야 합니다. 예를 들어, 일반적으로 자사 데이터의 상당 부분을 차지하는 사용자 행동 이벤트는 LLM에서 처리하기에 적합하지 않습니다. 이는 변화하고 있으므로 기업은 새로운 다중 모드 솔루션이 등장함에 따라 준비해야 합니다. 마찬가지로 툴링도 아직은 부족하지만 공간에 대한 관심이 많아 큰 진전이 이루어지고 있습니다. 곧 오고 있어요!
가장 큰 문제가 근본적으로 해결되면서 자사 데이터에 대한 과대광고가 돌아왔습니다. 기업은 제3자가 개인 정보를 침해하는 것에 대해 걱정할 필요가 없으며 고객을 파악하기 위해 Big Tech에 의존할 필요도 없습니다. 특히 Llama 3가 준비되면서 기업이 마침내 모든 이점을 활용하게 되면서 올해 자사 데이터가 폭발적으로 증가할 것으로 예상됩니다. 모든 약속에도 불구하고 Llama 3의 가장 큰 잠재력은 실제로 자사 데이터 문제를 완전히 해결하는 것일 것입니다.