클라우드 과대광고의 먼지가 가라앉으면서 더 많은 기술 팀이 일반적으로 감시받지 않는 클라우드 인프라의 부작용을 발견합니다.
온디맨드 확장성, 온프레미스 서비스 관리 시간 단축 및 기타 이점이 유망한 만큼, 고부하 시스템의 인프라 비용 급증이라는 심각한 단점으로 균형을 이루는 경우가 많습니다.
인프라 비용을 논의할 때 고부하 시스템에 중점을 두는 경우가 많습니다. 소규모 기업을 위한 클라우드보다 더 유연하고 저렴한 대안은 거의 없습니다.
그러나 QPS가 수십만 개에 도달하면서 작아 보이는 벤더 수수료는 더 이상 지속 가능하지 않습니다.
AdTech를 위한 고부하 시스템 구축 및 최적화를 전문으로 하는 소프트웨어 개발 회사로서 우리는 인프라 비용 급증을 방지하기 위해 팀이 사용하는 여러 가지 사례를 탐색했습니다. 15년 이상의 경험을 바탕으로 Xenoss는 Activision Blizzard, Verve Group, Smartly, Voodoo, Inmar Intelligence 등과 같은 프로젝트를 지원하여 강력하면서도 민첩한 인프라를 구축하는 데 도움을 주었습니다.
이번 게시물에서는 고부하 플랫폼과 관련된 인프라 문제에 대한 경험과 노하우를 공유하고 비용을 합리화하는 방법을 모색하고자 합니다. 게시물에 표시된 전술을 설명하기 위해 속도와 규모가 협상할 수 없는 산업인 AdTech를 사용하겠습니다.
또한 소프트웨어 설계자의 전문가 팁과 의견, 그리고 20배의 인프라 비용 절감 사례 연구를 포함하여 인프라 비용 최적화를 더 자세히 다루는 블로그 게시물도 있습니다.
고부하 플랫폼은 은행, 의료 등 다양한 부문을 지원합니다. 프로그래매틱 광고는 종종 기술적인 개발로 간주되지 않지만 운영 요구 사항이 인프라 설계의 경계를 넓히는 경우가 많기 때문에 다른 복잡한 시스템과 경쟁할 수 있습니다.
AdTech 플랫폼(SSP, DSP 등)이 인프라 비용 최적화를 탐색하는 데 탁월한 렌즈인 이유를 빠르게 요약해 보겠습니다.
AdTech 플랫폼은 높은 트래픽 볼륨과 낮은 대기 시간에 대한 요구 사이에서 끊임없이 줄다리기를 하고 있습니다.
한편으로는 온라인 광고로 인해 발생하는 막대한 양의 트래픽을 처리해야 합니다(TPA Digital의 CEO인 Wayne Bloodwell에 따르면 하루 노출수는 9,500억 건에 달함).
로드 외에도 생태계의 실시간 특성으로 인해 새로운 복잡성 계층이 추가됩니다.
광고 기술 플랫폼의 긴 지연 시간, 즉 입찰 요청과 응답 간의 지연으로 인해 입찰이 제때 처리되지 않아 광고주는 고품질 인벤토리를 놓치게 됩니다.
지연 시간이 길면 게시자의 광고 슬롯을 채우는 데 어려움을 겪게 되어 장기적으로 수익이 감소하게 됩니다.
입찰 처리를 위한 표준 시간 프레임은 업계가 운영되는 평균 시간 프레임인 80-120ms 정도입니다.
실시간 데이터 처리는 다음과 같은 문제로 인해 AdTech 프로젝트에서 반복적으로 발생하는 또 다른 과제입니다.
입찰 가격 모델링과 같은 실시간 결정을 내리려면 데이터를 신속하게(100ms 미만) 검색해야 합니다.
여러 소스에서 청중 데이터를 수집하면 파이프라인의 복잡성이 증가하고 다양한 데이터 유형을 처리하는 데 필요한 도구 세트가 확장됩니다.
데이터 품질 문제: 잘못된 데이터로 인해 광고주가 잘못된 입찰 결정을 내릴 수 있습니다. 모든 파이프라인 단계(수집, 처리, 소비)에 대한 데이터 품질 검사는 필수적입니다.
아래 클립은 실시간 데이터 분석의 복잡성과 중요한 작업을 보여줍니다.
https://www.youtube.com/watch?v=uaRzovqK3t0
광고 기술 산업은 경기 침체 기간에 따라 광고 서비스에 대한 수요가 변동하는 순환적 산업입니다. 시장 상승으로 인해 AdTech 플랫폼은 동적 확장성 기능을 구현해야 합니다.
SPO의 증가와 함께 AdTech 공급업체는 수요 변화에 대응하여 용량을 늘리거나 줄여야 한다는 압박감을 느끼고 있습니다. 따라서 성능이나 안정성을 저하시키지 않고 최대 트래픽을 처리하고 시장 변동에 맞게 규모를 축소할 수 있는 능력과 리소스가 필요합니다.
원시 데이터를 사용하는 것은 AdTech 플랫폼 성공의 핵심입니다. 이러한 시스템은 인구통계학적 정보, 검색 기록, 사용자 행동 등 수많은 집계된 데이터를 수집합니다. 이러한 통찰력은 다양한 소스에서 통합되어 타겟팅 및 개인화를 촉진하는 데 도움이 됩니다.
원시 데이터를 사용할 준비가 되기 전에 ETL(추출, 변환, 로딩) 단계를 거쳐야 합니다. 그러나 시스템 규모가 확장되고 데이터 양이 기하급수적으로 증가함에 따라 여러 파이프라인을 유지 관리하는 것이 엔지니어링 과제가 됩니다.
기술팀이 인프라 비용에 세심한 주의를 기울이지 않으면 금방 통제 불능 상태가 됩니다. 비효율적인 데이터 모델링 및 저장, 서비스 의존도의 선택성 부족, 위협에 대한 사전 계획 및 대응 실패로 인해 인프라는 예측 불가능하고 느리며 비용이 많이 들고 유지 관리가 어렵습니다.
인프라 비용을 절감하는 것은 하루의 작업이 아니지만 생태계와 플랫폼에 대한 지식으로 무장하면 몇 가지 조정만으로 상당한 비용 절감을 달성할 수 있습니다.
다음은 고객이 보다 효율적인 인프라를 달성할 수 있도록 지원하기 위해 Xenoss 기술 팀이 사용하는 여러 인프라 축소 사례 목록입니다.
초기 단계 프로젝트에서는 최적의 클라우드 인프라 설계에 대해 별로 고려하지 않습니다. 기술팀은 일반적으로 두 가지 방법 중 하나를 선택합니다.
AdTech에서는 유연성과 동적으로 확장하는 능력이 매우 중요합니다. 인프라 비용에 대한 완전한 통제와 보안 강화 능력도 똑같이 중요합니다. 전자는 일반적으로 클라우드와 관련이 있는 반면, 후자는 온프레미스의 이점으로 흔히 인용됩니다.
Xenoss에서는 두 인프라의 이점을 모두 인식하고 있으며, 이것이 바로 클라이언트 프로젝트에서 두 인프라를 모두 사용하는 이유입니다. 클라우드와 온프레미스의 조합을 종종 "하이브리드 클라우드"라고 부르지만 이 용어에 맞는 조합이 더 많습니다. 퍼블릭 클라우드와 프라이빗 클라우드를 결합하거나 두 개의 퍼블릭 클라우드(멀티 클라우드라고도 함)를 결합하는 것도 개념에 적합합니다.
DZone에서 발행한 데이터 파이프라인 보고서에 따르면 조사 대상 조직의 33%가 클라우드와 온프레미스 인프라를 함께 사용하고 있습니다. 기업 조직(직원 1000명 이상)만 고려하면 이 수치는 최대 42%까지 올라갑니다.
하이브리드 모델은 AdTech 팀에 더 높은 재정적 유연성을 제공하므로 AdTech 플랫폼이 온프레미스 설정 제어를 클라우드 플랫폼의 동적 확장성과 병합할 수 있습니다.
보안은 또 다른 중요한 이점입니다. 프로젝트는 민감한 데이터를 온프레미스에 유지하고 덜 중요한 작업에는 클라우드를 사용하여 엄격한 데이터 보호 표준을 유지할 수 있습니다.
우리가 하이브리드 접근 방식을 선호하고 옹호하는 또 다른 이유는 공급업체 종속을 방지할 수 있는 능력입니다. 중요한 인프라를 온프레미스에 유지하면 기업은 하나의 클라우드 공급자에 의존하지 않고 기술 스택을 다양화할 수 있는 여지를 얻을 수 있습니다.
게다가, 하이브리드 접근 방식을 사용하면 제품 팀이 워크로드별 인프라 구축에 대해 더 의도적일 수 있습니다.
실시간 광고 입찰이나 엄격한 지역 규정 준수에 따른 데이터 운영과 같은 AdTech의 일부 작업은 온프레미스 실행에 더 적합합니다.
동시에 다른 워크플로우(캠페인 분석, 분산 광고 콘텐츠 호스팅 또는 협업 광고 디자인)도 클라우드로 원활하게 마이그레이션할 수 있습니다.
경험상 스토리지 최적화만으로도 인프라 비용을 크게 줄일 수 있습니다. AdTech에서는 SQL 및 NoSQL 데이터베이스를 모두 사용하여 구조화된 데이터와 비구조화된 데이터를 관리합니다. 두 가지 유형의 데이터베이스 간의 주요 차이점과 AdTech의 사용 사례를 요약해 보겠습니다.
토론에 더 많은 맥락을 추가하기 위해 둘 사이의 차이점을 요약해 보겠습니다.
관계형 데이터베이스의 이점 | NoSQL 데이터베이스 이점 |
---|---|
높은 신뢰성 | 고성능 |
높은 데이터 일관성 | 높은 확장성 |
표준화된 스키마 | 대용량 데이터에 최적화된 스토리지 |
ACID 준수 | 높은 민첩성과 맞춤화 |
이제 최고의 AdTech 플랫폼이 선택한 데이터베이스와 데이터 저장에 대한 접근 방식을 살펴보겠습니다.
공개적인
Pubmatic SSP는 게시자가 고유한 수요 파트너십, 고급 분석 및 창의적인 최적화 도구를 통해 광범위한 잠재고객을 확보하고 광고 수익을 극대화하도록 돕습니다.
과제: 회사에는 대규모 데이터 세트를 처리하고 복잡한 문제를 해결하기 위한 강력한 데이터베이스가 필요했습니다. 회사는 무엇보다도 신뢰할 수 있고 효과적인, 실전 테스트를 거친 도구를 원했습니다.
솔루션: MySQL
영향: PubMatic의 광고 품질팀은 MySQL을 기본 데이터 소스로 사용합니다. 플랫폼의 데이터베이스는 최대 1억 개의 기록을 저장합니다. 안정성과 견고함으로 잘 알려진 MySQL을 통해 PubMatic은 하루에 수백만 개의 광고 소재를 처리하고 2x-10x의 데이터 로드를 유지할 수 있습니다.
애드그리츠
AdGreetz는 소셜 미디어, CTV/OTT, 인앱 등 다양한 채널에 맞춤형 광고 크리에이티브를 배포하는 개인화 플랫폼입니다.
과제: 조직의 워크플로는 데이터 집약적이므로 수백만 개의 사용자 기록을 지원하는 데이터베이스 관리 솔루션이 필요합니다.
선택한 데이터베이스: ClickHouse
영향: AdGreetz의 엔지니어링 팀에게 Clickhouse는 비용 효율적이고 성능이 뛰어난 솔루션임이 입증되었습니다. 회사는 소규모 컴퓨팅에서 쿼리 시간을 몇 초에서 1초 미만으로 단축할 수 있었습니다.
밀랍
Beeswax는 광고주가 프로그래밍 방식 운영을 간소화할 수 있는 관리형 RTB 플랫폼입니다. 이 회사는 초당 수백만 개의 쿼리를 처리하고 분당 125GB의 데이터를 소비하는 서비스형 입찰자 솔루션을 제공합니다.
과제: 효율적인 광고 전달을 보장하는 신속한 확장, 조직의 컴퓨터 전체에 동일한 로드 분산이 필요합니다.
선택한 NoSQL 데이터베이스: Amazon EC2에서 실행되는 Aerospike.
영향: Beeswax는 2밀리초의 꼬리 읽기 대기 시간으로 초당 수백만 개의 쿼리를 처리할 수 있습니다.
껌껌
GumGum은 독점적인 머신러닝 플랫폼인 Verity를 기반으로 하는 상황별 타겟팅 플랫폼을 제공합니다.
과제: 회사는 대기 시간을 최소화하면서 대량의 광고 관련 데이터(노출수, 조회수, 클릭수, 전환수)를 처리하기를 원했습니다. 데이터가 실시간으로 처리되지는 않지만 그 차이를 최소화하는 것이 목표였습니다.
선택한 NoSQL 데이터베이스: ScyllaDB
영향:
몰로코
Moloco는 광고주가 모바일 잠재고객을 확보하고, 참여시키고, 소매할 수 있도록 돕는 모바일 잠재고객 플랫폼입니다. 이 플랫폼은 캠페인 최적화 및 예측 분석을 위해 기계 학습 모델에 크게 의존합니다.
과제: 엄격한 대기 시간 제한(100ms 미만)으로 초당 수백만 개의 입찰 퀘스트를 처리해야 하는 압박감.
선택한 NoSQL 데이터베이스: Google Cloud BigTable
영향:
AdTech 플랫폼 개발 분야에서 수년간의 경험을 통해 AdTech 데이터 스토리지 인프라에 적합한 데이터베이스를 선택하는 데 있어 틀에 박힌 접근 방식은 없다는 사실을 알게 되었습니다. 데이터베이스에는 매우 다양한 종류가 있습니다. 적합한 것을 찾으려면 경험, 제품 지식, 철저한 조사가 필요합니다.
때로는 두 개의 NoSQL 데이터베이스 간을 전환하면 많은 차이가 발생할 수 있습니다. 위에 소개된 GumGum은 ScyllaDB로 전환하기 전에 Cassandra에 의존했습니다. MongoDB에서 Aerospike로 마이그레이션한 후 클라이언트(모바일 DSP) 사례에서 운영 비용이 크게 절감되는 것을 확인했습니다.
데이터 저장을 최적화하는 다른 방법
데이터 압축 및 중복 제거 기술을 구현하는 것은 필요한 저장 공간을 줄여 비용을 절감하는 또 다른 방법입니다.
압축은 데이터 크기의 감소를 의미하므로 전송 속도가 빨라지고 저장 비용이 절감됩니다. 데이터 팀은 GZIP과 같은 기술을 사용할 수 있습니다.
중복 제거는 이름에서 알 수 있듯이 중복된 데이터 복사본을 제거합니다. 이는 반복되는 사용자 프로필이나 유사한 데이터 세트가 흔한 AdTech에서 중요한 역할을 합니다.
콜드 스토리지는 성능에 영향을 주지 않고 거의 액세스하지 않는 데이터(기존 캠페인 지표)를 저장하는 비용 효율적인 방법입니다.
클라우드 서비스를 탐색하려면 지능적인 선택이 필요합니다. 주의를 기울이지 않으면 인프라 비용은 추가하지만 플랫폼에는 가치가 없는 서비스 번들을 사용하기 쉽습니다.
아래 클립에서 Xenoss CTO Vova Kyrychenko는 AdTech 플랫폼이 확장됨에 따라 "공짜 돈 함정"으로 인해 인프라 비용이 어떻게 높아질 수 있는지 설명합니다.
https://www.youtube.com/watch?v=q_57WdKDJI0
광고 기술 공급업체에 대한 우리의 중요한 권장 사항은 프리미엄 서비스 가격을 분석하여 숨겨진 비용이나 절감액을 찾아내는 것입니다."
또한 새로운 도구는 플랫폼 속도를 저하시킬 수 있으므로 새로운 서비스를 프로덕션에 도입하기 전에 소규모로 테스트하는 것이 합리적입니다.
타사 또는 오픈 소스 프로젝트를 주시하는 것은 값비싼 관리형 제품에 대한 또 다른 대안입니다. 무료 또는 저비용 플랫폼은 주류 클라우드 공급업체보다 더 나은 성능을 제공할 수 있습니다.
Xenoss의 엔지니어들은 클라이언트 프로젝트에 이 접근 방식을 채택함으로써 인프라 비용을 20배 절감하는 데 도움을 주었습니다.
아래 인포그래픽에서는 고객의 기존 인프라와 건축가가 설계한 현대화된 버전을 보여줍니다.
앞서 언급했듯이 AdTech 플랫폼은 안정적인 부하에서 작동하지 않습니다. 어느 순간 플랫폼이 갑자기 급증할 수 있으며 다음에는 무엇을 해야 할지 아는 것보다 더 많은 컴퓨팅 리소스를 보유하게 됩니다.
Xenoss의 엔지니어들은 효율적인 트래픽과 로드 밸런싱이 AdTech 시스템의 필수 요소라고 믿기 때문에 이러한 개념에 대해 더 자세히 살펴보겠습니다.
로드 밸런싱이란 들어오는 요청을 여러 서버에 균등하게 분산하여 단일 서버가 과부하되지 않도록 하는 것을 의미합니다. 이 프레임워크 내에서 Xenoss 설계자는 미션 크리티컬 프로세스, 즉 중단될 경우 시스템의 핵심 기능(실시간 광고 입찰 또는 사용자 데이터 처리)을 중단시키는 필수 작업의 우선 순위를 지정합니다.
이러한 프로세스에 우선순위를 부여함으로써 우리는 잠재적인 속도 저하나 실패로부터 중요한 운영을 보호합니다.
유명한 격언은 다음과 같습니다. "실패는 모든 계획의 일부입니다." AdTech 제품 팀에 위협과 다운타임을 방지하라고 간결하게 경고합니다.
이를 위해 우리는 공급업체와 내부 기술 팀이 시스템 상태를 감시하고 중단 없는 운영을 보장하는 모니터링 도구를 활용할 것을 촉구합니다. 이상 현상에 대한 경고를 설정하면 팀은 즉시 경고를 받고 신속하게 조치를 취하며 사소한 장애가 심각한 붕괴로 이어지지 않도록 할 수 있습니다.
AI 기반 통찰력으로 이러한 접근 방식을 향상하면 훨씬 더 세분화된 정보가 제공됩니다. Isolation Forest 또는 One-Class SVM과 같은 이상 탐지 알고리즘은 위협이나 시스템 취약성을 나타낼 수 있는 비정상적인 데이터 패턴을 식별하는 데 적합합니다.
시계열 데이터를 분석하기 위해 장기 단기 기억 순환 신경망을 배포하는 것이 좋습니다.
또한 대규모 언어 모델은 로그 및 시스템 메시지를 분석하여 이상 징후를 탐지함으로써 위협 탐지에 기여할 수 있으므로 간과될 수 있는 텍스트 데이터를 이해할 수 있습니다.
인프라 비용 최적화는 효율성과 수익성을 목표로 하는 모든 부문의 기업에게 핵심입니다.
AdTech는 밀리초 단위로 수천 개의 쿼리를 처리해야 하기 때문에 인프라 개발의 한계를 극한으로 끌어올리기 때문에 높은 데이터 볼륨과 트래픽 로드 작업에 따른 문제와 해결 방법을 탐색할 수 있는 훌륭한 놀이터입니다.
좋은 소식은 숙련된 기술 팀이 종종 시행착오를 거쳐 고부하 시스템의 경우에도 인프라 비용을 낮게 유지하기 위한 핸드북을 개발했다는 것입니다. 클라우드와 온프레미스 솔루션 사이의 균형을 맞추고, 위협 탐지를 위해 AI를 활용하고, 데이터 스토리지 전략을 지속적으로 개선하면 제품 팀이 예산에 영향을 주지 않고 강력한 운영을 보장할 수 있습니다.
이 영역에서 민첩성을 유지하고 정보를 얻는 것은 역동적인 AdTech 환경에서 비용을 절감하는 방법이자 경쟁 우위입니다.