이 게시물은 원래 The New Stack 에 게재되었습니다.
몇 년 동안 "프라이빗 클라우드"라는 용어는 부정적인 의미를 가졌습니다. 하지만 우리가 알다시피 기술은 화살보다 바퀴에 가깝고, 바로 그때 프라이빗 클라우드가 엄청난 주목을 받고 있으며, 모두 긍정적입니다. 통계는 명확합니다. Forrester의 2023 인프라 클라우드 설문 조사에 따르면 응답한 1,300명의 기업 의사 결정권자 중 79%가 프라이빗 클라우드를 구현하고 있다고 말했습니다.
이유는 다양하며 자세히 설명하겠지만, 더 중요한 것은 어떤 아키텍처로 환수할 것인가? 프라이빗 클라우드의 엔지니어링 기본 원칙은 무엇인가? 마지막으로 AI의 데이터 인프라 요구 사항을 어떻게 설계할 것인가?
회사가 본국으로 송환하는 주된 이유는 비용입니다. 그들은 본국으로 송환함으로써 최대 70%를 절약합니다. 이는 다양한 회사에서 공개적으로 입증되었습니다.
관련이 있지만 동일하지는 않은 것이 예측 가능성입니다. 프라이빗 클라우드는 탄력성이 낮지만 예측 가능성이 더 큽니다(아래에서 탄력성 해킹에 대해 설명합니다). 작업 부하를 이해하는 대부분의 CIO에게 이러한 트레이드오프는 그만한 가치가 있습니다. CFO에게는 훨씬 더 쉬운 선택입니다.
보안 문제는 세 번째입니다. 이는 퍼블릭 클라우드가 본질적으로 안전하지 않다는 것을 의미하지 않습니다. CISO가 이 측면에서 퍼블릭 클라우드 파트너를 전적으로 신뢰하지 않는다는 것을 의미합니다(실제로 대부분의 클라우드 제공자는 버킷을 살펴볼 권리를 보유합니다). AI 시대에는 위험이 더 커질 뿐입니다.
관련된 사항으로, 통제는 모든 CIO의 목록에 있습니다. 비용 절감, 예측 가능성 및 보안과 함께 AI 데이터 인프라를 완벽하게 제어할 수 있을 뿐만 아니라 모든 애플리케이션에서 데이터를 사용할 수 있으므로 모델을 AI 데이터 인프라에 호스팅할 수 있으며, 보안 표준을 귀하와 귀하의 팀이 고유한 보안 요구 사항(물리적 액세스 포함)과 일치하도록 설정할 수 있습니다.
성숙도도 순위에 있습니다. 현대 클라우드는 위치가 아니라 운영 모델입니다. 한때 주요 퍼블릭 클라우드의 독점적 공급이었던 이 모델은 이제 에지에서 코어까지 모든 곳에 있습니다. 컨테이너화, 오케스트레이션, 마이크로서비스, 소프트웨어 정의 인프라, RESTful API는 표준 운영 절차입니다. 어디에서 실행하든 상관없습니다. 중요하지 않다면 왜 비용을 두세 배 더 지불하겠습니까?
규정도 역할을 하는데, 특히 규정이 진화함에 따라 그렇습니다. 일부 아키텍처, 일부 지역, 일부 배포 시나리오(군/정보)는 처음에는 프라이빗 클라우드를 요구하지 않았지만 지금은 요구합니다.
다시 말하지만, 이유는 다를 수 있지만 효과는 같습니다. 프라이빗 클라우드가 다시 유행하고 있습니다. 질문은: 지난 몇 년 동안 무엇이 바뀌었을까요?
위에서 언급했듯이, 프라이빗 클라우드는 퍼블릭 클라우드와 마찬가지로 클라우드 운영 모델에서 실행됩니다. 엣지 클라우드는 클라우드 운영 모델에서 실행됩니다. 콜로케이션은 클라우드 운영 모델에서 실행됩니다.
그 운영 모델은 특정 아키텍처를 정의하고, 그 아키텍처는 계속해서 현대적 데이터 레이크를 가능하게 합니다. 다른 아키텍처도 확실히 있지만, 프라이빗 클라우드를 사용하여 현대적 데이터 레이크를 구축하면 조직은 필요한 것만 지불하면 됩니다. 사업이 성장하면 클러스터에 리소스를 더 추가하는 것만큼 간단하게 확장할 수 있습니다. 재설계가 필요하지 않습니다.
현대적 데이터 레이크는 절반이 데이터 웨어하우스이고 절반이 데이터 레이크이며 모든 것에 개체 스토리지를 사용합니다. 개체 스토리지 계층은 소프트웨어 정의, 확장 가능, 클라우드 네이티브이며 성능이 뛰어납니다. 성능은 다음을 선택하여 조정할 수 있습니다.
데이터 레이크와 함께 개체 저장소를 사용하는 것은 표준이며, 데이터 웨어하우스와 함께 사용하는 것은 새로운 것으로, Apache Iceberg, Apache Hudi 및 Delta Lake와 같은 Open Table Formats(OTF)를 통해 가능해졌습니다. 이 아키텍처에 대한 상당한 세부 정보가 있지만 이 기사의 범위를 벗어납니다. 이에 대해서는 Keith Pijanowski의 전체 내용을 읽어보시기를 권장합니다.
이 아키텍처는 다음을 제공하도록 설계되었습니다. 이는 모두 핵심 클라우드 운영 원칙이며 확장하여 프라이빗 클라우드의 핵심 원칙입니다.
고성능: 프라이빗 클라우드는 용량에 맞게 설계할 수 있지만, 현대 프라이빗 클라우드는 규모에 맞게 성능을 제공하려고 합니다. 이 아키텍처는 속도와 효율성을 강조하는 도구를 우선시합니다. 제프 베조스가 말했듯이, 누가 더 많은 비용을 지불하고 더 오래 기다려서 그것을 얻고 싶어할까요? 여기에도 동일한 원칙이 적용됩니다. 누가 더 느리게 만들고 싶어할까요?
분리된 컴퓨팅 및 스토리지: 이러한 구성 요소를 연결 해제하면 유연성과 확장성이 향상되어 선택한 인프라, 서비스 및 도구가 해당 전문 분야에서 탁월한 성과를 거둘 수 있습니다.
개방형 표준: 개방형 표준은 상호 운용성을 장려할 뿐만 아니라 투자를 미래에 대비할 수 있도록 합니다. 여기에는 오픈 소스 솔루션뿐만 아니라 우리가 살펴볼 오픈 테이블 형식도 포함됩니다. 이러한 이유(그리고 결코 클라우드 네이티브가 되지 않을 것이라는 사실)로 인해 스토리지 어플라이언스로 프라이빗 클라우드를 구축하지 마세요.
RESTful API와의 호환성: 상호 연결성은 필수입니다. 도구는 공통 언어를 공유해야 하며, S3는 클라우드 스토리지의 링구아 프랑카 역할을 해야 합니다. 이러한 이유로 S3를 지원한다고 주장하더라도 POSIX 중심 솔루션으로 프라이빗 클라우드를 빌드하지 마세요. 진짜를 선택하세요.
소프트웨어 기반/코드로서의 인프라: 인프라를 자동화하고 Kubernetes가 이를 관리하도록 하여 수동 관리의 복잡성을 추상화하고 빠르고 효율적인 확장이 가능합니다.
강화된 보안 및 규정 준수: 프라이빗 클라우드는 전용 인프라를 제공하므로 데이터에 대한 더 큰 제어와 강화된 보안 조치를 제공합니다. 이는 금융 및 의료와 같이 민감한 정보를 처리하는 산업에 특히 유용합니다.
규정 준수: 이 아키텍처는 특정 산업 표준을 충족하도록 사용자 정의 가능한 보안 설정과 감사 제어를 제공하여 규정 준수를 지원할 수 있습니다.
개인 클라우드 활용하기
프라이빗 클라우드를 밝히기 위해 우리는 여러 가지 접근 방식을 보았습니다. 모두 효과가 있을 수 있습니다. 실제로는 기업과 사용 사례에 따라 달라집니다.
시간 제한 하이브리드 접근 방식: 시간 제한 하이브리드 접근 방식은 기본적으로 퍼블릭 클라우드를 콜드 스토리지로 전환하고 일정 기간(몇 년이 아닌 몇 달/분기)에 걸쳐 프라이빗 클라우드 풋프린트를 구축합니다. 여기에는 프라이빗 클라우드에서 인프라와 소프트웨어 스택을 구매하고 구성하는 것이 포함됩니다. 그런 다음 데이터 파이프라인을 퍼블릭 클라우드가 아닌 프라이빗 클라우드로 향하게 합니다. 두 가지를 모두 수행하는 기간이 있을 수 있습니다. 그러나 목표는 퍼블릭 클라우드를 계층형 콜드 스토리지로 사용하고 프라이빗 클라우드를 핫 스토리지로 사용하는 것입니다. 시간이 지남에 따라 퍼블릭 클라우드는 콜드에서 동결로 전환되고 프라이빗 클라우드는 기본적이고 지배적인 스토리지 유형이 됩니다.
이는 선도적인 사이버 보안 업체가 한 일입니다. MinIO 및 Equinix와 협력하여 프라이빗 클라우드를 설정한 다음, 하루 250테비바이트(TiB)의 데이터 파이어호스를 그 방향으로 돌렸습니다. 로그 분석은 운영 가치 측면에서 높은 감소 함수를 가지고 있기 때문에 새로운 프라이빗 클라우드가 위협 사냥 데이터의 주요 소스가 되는 데 오래 걸리지 않았습니다. 이 프라이빗 클라우드는 거의 엑사바이트로 성장했으며(곧 그 한계를 넘을 것입니다) 이러한 워크로드(실질적으로 핵심 사업)를 프라이빗 클라우드(Capex가 아닌 Opex)로 옮기기로 한 결정은 사업의 총 마진을 2% 이상 개선했습니다. 그 결과 이 회사는 동업사들이 부러워하는 가치 평가 배수를 갖게 되었습니다.
완전한 재송환 : 애플리케이션과 데이터를 퍼블릭 클라우드와 프라이빗 클라우드에 모두 보관하는 것이 불가능한 경우가 있습니다. 이런 경우 클라우드 공급업체와 계약을 해지해야 합니다. 어려운 일이며, 해지 수수료를 없애더라도 고통스럽습니다(기본적으로 약관에는 해지 수수료 면제를 받으려면 모든 것을 없애야 한다고 명시되어 있습니다). 매우 실현 가능합니다. 약간 더 계획하고 약간 더 많은 비즈니스 마찰만 있으면 됩니다. 이 경우 콜로 또는 프라이빗 클라우드와 애플리케이션 스택을 프로비저닝합니다. 그런 다음 데이터 트럭을 백업하거나 네트워크를 임대하여 데이터를 프라이빗 클라우드 데이터 인프라로 파이어호스로 전송합니다. 이 시점에서는 자유롭지만, 벨트와 서스펜더 유형이라면 한두 달 동안 두 배의 비용을 지불해야 합니다. 대표적인 스트리밍 회사 중 하나가 퍼블릭 클라우드를 떠날 때 이런 접근 방식을 취했습니다. 모든 영화, 쇼, 다큐멘터리 등을 포함하여 반 엑사바이트를 새로운 프라이빗 클라우드로 포크리프트했습니다. 이 과정은 약 4분의 3이 걸렸습니다. 그러나 보상은 엄청났고 서비스를 관리하는 팀의 복잡성은 크게 줄었습니다. 그들은 또한 "좋은 팝인"의 부수적인 이점을 즐겼습니다.
그린필드 프라이빗 클라우드:
이것은 매우 간단한 제안이며 일반적으로 모든 것이 새롭습니다. 프로젝트가 새롭거나 프로젝트의 데이터는 새롭거나(또는 거의 새롭거나) 온라인에 올라오는 어떤 소스(거대한 제조 공장이나 새로운 클라우드 주문형 비디오 서비스 등)에서 생성됩니다. 여기서 작업 부하의 크기를 조정합니다. 퍼블릭 클라우드에서 테스트할 수도 있지만 아이디어는 처음부터 프라이빗 클라우드에서 실행된다는 것입니다. AI 데이터 인프라에서 이런 일이 꽤 자주 발생합니다. 초기 실험은 퍼블릭 클라우드에서 이루어집니다. 데이터는 그렇게 중요하지 않습니다. GPU 가용성은 상당히 좋습니다. 그럼에도 불구하고 기업은 규모뿐만 아니라 보안, 개인 정보 보호 및 제어를 위해 프로덕션을 위해 작업 부하가 프라이빗 클라우드에 있어야 한다는 것을 알고 있습니다. 세계 최고의 자동차 회사 중 하나는 최근 전체 자율 주행 이니셔티브를 규칙 기반 시스템에서 실제 운전자의 행동에 기반한 시스템으로 전환했습니다.
그 행동은 차량에서 나오는 수백만 개의 비디오와 로그 파일에서 "학습"됩니다. 좋은 운전자, 나쁜 운전자, 보통 운전자. 비디오뿐만 아니라 제동, 가속, 조향 토크 등과 같은 자동차 원격 측정의 다른 요소에서도 학습합니다. 규칙 기반 ML 접근 방식은 페타바이트 규모였지만 비디오는 엑사바이트 규모입니다. 이 회사는 그 데이터를 누구와도 공유하지 않습니다(실제로 두 개의 퍼블릭 클라우드는 경쟁 이니셔티브를 가지고 있습니다). 그 AI 워크로드(모두 300개 이상의 서버)는 항상 프라이빗 클라우드 이니셔티브였습니다.
브라운필드 프라이빗 클라우드:
여기서 우리는 솔직하게 말씀드리겠습니다. 우리는 이것을 보지만 좋아하지 않습니다. 여기에는 하드 디스크 드라이브에서 고성능 워크로드를 실행하여 MinIO를 계층화하려는 시도가 포함됩니다.
작동하지만 최적의 솔루션은 거의 아닙니다. 경제적(하드웨어를 재사용하고 있음)이고 마찰이 적지만(조달 없음) 성능이 좋지는 않습니다. 그럼에도 불구하고 포괄적으로 설명하기 위해 여기에 포함시켰습니다. 중요한 점을 제기합니다. 어떤 시나리오에서든 프라이빗 클라우드를 설계할 때 이기종을 계획하십시오. 이는 보장이며 솔직히 계획의 일부가 되어야 합니다. 위의 시나리오 중 하나에서 하드웨어의 절반은 Supermicro에서 제공합니다. 나머지 절반은 Dell에서 제공합니다. 세상이 변하고 새로운 기술이 출시되면 소프트웨어는 신경 쓰지 않아야 합니다.
다른 사람들:
덜 빈번하지만 고려해야 할 두 가지 다른 시나리오가 있습니다. 하나는 하이브리드 버스트 접근 방식이고 다른 하나는 외부 테이블 접근 방식입니다. 둘 다 하이브리드 옵션과 관련이 있지만 시간에 구애받지 않을 수 있습니다. 하이브리드 버스트 접근 방식에서는 프라이빗 클라우드를 유지 관리하면서 퍼블릭 클라우드로 원활하게 확장하거나 "버스트"하여 유연성을 더합니다. 이 전략은 종종 추가 GPU 용량을 활용하거나 특정 클라우드 서비스를 사용하기 위해 채택됩니다. 이 모델에서 특정 작업은 처리를 위해 일시적으로 퍼블릭 클라우드로 전송됩니다. 분석이 완료되면 결과가 프라이빗 클라우드로 다시 전송되고 퍼블릭 클라우드 리소스는 폐기됩니다. 신용 위험 및 시장 위험 계산을 통해 이를 수행하는 주요 금융 서비스 고객이 있습니다. 일부 컴퓨팅 작업에 퍼블릭 클라우드를 사용하고 MinIO 및 Dremio를 사용하는 프라이빗 클라우드 데이터 레이크와 결합합니다. 클라우드 운영 모델의 장점은 아키텍처가 두 곳 모두에서 작업을 지원해야 한다는 것입니다. 사실상 양방향 도로입니다.
한때는 일방통행이었지만 세상은 바뀌었고 기업에는 선택권이 있습니다.외부 테이블 옵션을 사용하면 조직은 Snowflake 및 SQL Server와 같은 기존 클라우드 데이터 웨어하우스를 프라이빗 클라우드에 구축된 데이터 레이크와 통합하여 클라우드 운영 모델의 원칙을 계속 활용할 수 있습니다.이 하이브리드 설정을 통해 기업은 클라우드 인프라에 대한 기존 투자를 활용하면서도 최신 데이터 레이크의 성능, 데이터 보안 및 개방형 표준 설계를 활용할 수 있습니다.모든 주요 데이터베이스 공급업체는 이제 외부 테이블에 대한 지원을 제공합니다.이 기능을 사용하면 사용자는 마이그레이션의 번거로움 없이 데이터베이스의 일반 테이블인 것처럼 개체 스토리지의 데이터를 어디에 있든 쿼리할 수 있습니다.데이터는 프라이빗 클라우드에 유지되지만 필요한 곳에서 사용할 수 있습니다.
마지막 생각과 조언
저희는 수년에 걸쳐 이러한 사설 클라우드 환수/새로운 빌드에 많이 참여했습니다. 팀에 놀라운 점 중 하나는 하드웨어를 다시 관리하는 것입니다. 클라우드에서는 투명합니다. DevOps 및 사이트 안정성 엔지니어는 API 수준에서만 인프라와 상호 작용합니다. VM이 작동하지 않으면 종료하고 대신 새 VM을 시작합니다. 안타깝게도 새로운 사설 클라우드에서는 하드웨어를 폐기하고 새 하드웨어를 구매하는 대신 기존 하드웨어를 작동시켜야 합니다.
인프라 관리란 것이 있습니다. 그것은 영역과 함께 제공됩니다. 무섭지 않아야 하지만 계획되어야 합니다. 소프트웨어 엔지니어링/DevOps 측면과 데이터 센터 엔지니어의 책임을 구분해야 합니다. 데이터 센터의 이 SME(주제 전문가)는 모든 하드웨어에 대한 내부 및 외부를 알아야 합니다. 그들은 고장, 교체 및 모든 유지 관리를 포함하여 하드웨어와 관련된 모든 것에 책임을 질 것입니다.
여기서 중요한 것은 소프트웨어입니다. MinIO가 글로벌 콘솔에 관찰성을 구축한 이유입니다. 프라이빗 클라우드의 세계에서는 스마트한 소프트웨어와 멍청한 하드웨어를 실행해야 합니다. 하지만 그 소프트웨어는 이 경제적 혜택의 운영 부담을 짊어져야 합니다. 하드웨어 담당자는 단순히 관찰성 계층을 구축할 수 없었고, MinIO가 해야 했습니다.
일주일에 한 번 배포하는 조직이라면 각 배포가 아마도 장관일 것입니다. 배포가 드물면 버그를 예측하고 수정하기 어렵기 때문입니다. 배포가 계획대로 진행되지 않으면 모든 사람이 손을 써야 합니다. 일반적으로 흐름은 다음과 같습니다.
이러한 CI/CD 원칙을 실제로 적용하면, 한 명의 강력한 데이터 센터 엔지니어가 다른 강력한 DevOps/SRE 엔지니어와 긴밀히 협력하여 프라이빗 클라우드 또는 콜로 시설에서 5,000개가 넘는 노드를 쉽게 관리할 수 있습니다. 우리는 정확히 이런 일을 하는 고객이 있습니다. CI/CD 기준 원칙을 따르면 거의 모든 것이 자동화될 수 있고 자동화되어야 하며, 데이터 센터 및 DevOps 엔지니어는 자동화할 수 없는 작업에만 집중할 것입니다. 마지막으로, 놓치셨다면, 콜로는 프라이빗 클라우드에 대한 우리의 정의와 동의어입니다.
콜로케이션은 완전한 온프레미스 인프라와 퍼블릭 클라우드 사이의 중간 지점을 제공하여 두 세계의 이점을 제공합니다. 최고 수준의 네트워킹에 대한 액세스와 퍼블릭 클라우드 공급자와의 근접성을 통해 콜로는 저지연 연결과 하이브리드 클라우드 설정을 용이하게 하여 효율적인 데이터 전송 및 처리를 가능하게 합니다. 이러한 유연성과 성공적인 하이브리드 클라우드 배포의 잠재력은 운영을 최적화하고 경쟁 우위를 유지하려는 기업에 매우 중요합니다. 이것이 어떻게 작동하는지 자세히 알아보려면 다음을 확인하세요.