paint-brush
딥 러닝을 위한 레이크하우스, Deep Lake: 개요 및 소개~에 의해@dataology
163 판독값

딥 러닝을 위한 레이크하우스, Deep Lake: 개요 및 소개

너무 오래; 읽다

연구원들은 딥 러닝 프레임워크를 위한 복잡한 데이터 스토리지 및 스트리밍을 최적화하는 딥 러닝용 오픈 소스 레이크하우스인 Deep Lake를 소개합니다.
featured image - 딥 러닝을 위한 레이크하우스, Deep Lake: 개요 및 소개
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

저자:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) Abhinav Tuli, Activeloop, 미국 캘리포니아주 마운틴뷰;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) Fariz Rahman, Activeloop, 미국 캘리포니아주 마운틴뷰;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) David Isayan, Activeloop, 미국 캘리포니아주 마운틴뷰;

(7) 마크 맥퀘이드(Mark McQuade), 미국 캘리포니아주 마운틴뷰 소재 Activeloop;

(8) Mikayel Harutyunyan, Activeloop, 미국 캘리포니아주 마운틴뷰;

(9) Tatevik Hakobyan, Activeloop, 미국 캘리포니아주 마운틴뷰;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.

링크 표

추상적인

기존 데이터 레이크는 시간 이동을 지원하고, SQL 쿼리를 실행하고, ACID 트랜잭션을 통해 데이터를 수집하고, 클라우드 스토리지에서 페타바이트 규모의 데이터 세트를 시각화함으로써 분석 워크로드에 중요한 데이터 인프라를 제공합니다. 이를 통해 조직은 데이터 사일로를 무너뜨리고, 데이터 중심 의사 결정을 내리고, 운영 효율성을 개선하고, 비용을 절감할 수 있습니다. 그러나 딥 러닝 사용량이 증가함에 따라 기존 데이터 레이크는 자연어 처리(NLP), 오디오 처리, 컴퓨터 비전 및 비표 형식 데이터 세트와 관련된 애플리케이션과 같은 애플리케이션에 적합하게 설계되지 않았습니다. 이 문서에서는 Activeloop[1][2]에서 개발된 딥 러닝 애플리케이션용 오픈 소스 레이크하우스인 Deep Lake를 소개합니다. Deep Lake는 한 가지 주요 차이점을 제외하고 일반 데이터 레이크의 이점을 유지합니다. 이미지, 비디오, 주석 및 표 형식 데이터와 같은 복잡한 데이터를 텐서 형식으로 저장하고 데이터를 네트워크를 통해 빠르게 스트리밍합니다. ) Tensor Query Language, (b) 브라우저 내 시각화 엔진 또는 (c) GPU 활용도를 희생하지 않는 딥 러닝 프레임워크. Deep Lake에 저장된 데이터 세트는 PyTorch[58], TensorFlow[25], JAX[31]에서 액세스할 수 있으며 수많은 MLOps 도구와 통합할 수 있습니다.


키워드 - 딥 레이크, 딥 러닝, 데이터 레이크, 레이크하우스, 클라우드 컴퓨팅, 분산 시스템

1. 소개

데이터 레이크는 조직이 정형, 비정형, 반정형 데이터를 한 곳에 저장할 수 있는 중앙 저장소입니다. 데이터 레이크는 데이터를 관리, 통제, 분석하는 더 나은 방법을 제공합니다. 또한 데이터 사일로를 깨고 이전에 서로 다른 데이터 소스에 숨겨져 있던 통찰력을 얻을 수 있는 방법을 제공합니다. 1세대 데이터 레이크는 전통적으로 HDFS[71] 또는 AWS S3[1]와 같은 분산 스토리지 시스템에 데이터를 수집했습니다. 체계화되지 않은 데이터 수집으로 인해 데이터 레이크가 "데이터 늪"으로 변했고, 이로 인해 Delta, Iceberg 및 Hudi가 주도하는 2세대 데이터 레이크가 탄생했습니다[27, 15, 10]. Parquet, ORC, Avro [79, 6, 20]와 같은 표준화된 구조적 형식을 기반으로 엄격하게 작동하며 시간 여행, ACID 트랜잭션 및 스키마 진화와 같은 기능을 제공합니다. 데이터 레이크는 Presto, Athena 등의 쿼리 엔진과 직접 통합됩니다.


그림 1: 딥 러닝 프레임워크와 인터페이스하는 Deep Lake 아키텍처 개요.


분석 쿼리를 실행하기 위한 Hive 및 Photon [70, 12, 76, 66]. 또한 ETL 파이프라인 유지 관리를 위해 Hadoop, Spark 및 Airflow[14, 82, 9]와 같은 프레임워크에 연결됩니다. 결과적으로, 명확한 컴퓨팅 및 스토리지 분리를 통해 데이터 레이크와 쿼리 엔진 간의 통합으로 인해 Snowflake, BigQuery, Redshift 및 Clickhouse[33, 4, 40, 2].


지난 10년 동안 딥 러닝은 텍스트, 이미지, 비디오 및 오디오와 같은 구조화되지 않고 복잡한 데이터를 포함하는 전통적인 기계 학습 기술을 능가했습니다[44, 47, 38, 83, 51, 30, 63, 56]. 딥 러닝 시스템은 기존 기술을 능가했을 뿐만 아니라 X선 이미지를 통한 암 탐지, 인간 신경 세포의 해부학적 재구성, 게임 플레이, 자동차 운전, 단백질 전개, 이미지 생성 등의 응용 분야에서 초인적인 정확도를 달성했습니다. 61, 48, 72, 42, 77]. 변환기 기반 아키텍처를 갖춘 대규모 언어 모델은 번역, 추론, 요약 및 텍스트 완성 작업 전반에 걸쳐 최첨단 결과를 달성했습니다[78, 36, 81, 32]. 대규모 다중 모드 네트워크는 교차 모드 검색을 위해 구조화되지 않은 데이터를 벡터에 포함합니다[29, 60]. 또한 텍스트로부터 사실적인 이미지를 생성하는 데 사용됩니다[62, 65].


딥 러닝 모델 성공의 주요 요인 중 하나는 CoCo(330K 이미지), ImageNet(120만 이미지), Oscar(다국어 텍스트 코퍼스) 및 LAION(400M 및 5B 이미지)과 같은 대규모 데이터 세트의 가용성이었습니다. [49, 34, 74, 68], 이러한 규모를 지원하기 위해 기존 분석 워크로드와 유사하게 잘 확립된 데이터 인프라 청사진이 없습니다. 반면, 최신 데이터 스택(MDS)에는 고성능 딥 러닝 기반 솔루션을 배포하는 데 필요한 기능이 부족하므로 조직은 사내 시스템을 개발하기로 결정합니다.


본 논문에서는 딥러닝 워크로드에 특화된 레이크하우스인 Deep Lake를 소개합니다. Deep Lake는 다음과 같은 주요 이점을 유지합니다.


그림 2: Deep Lake를 사용한 기계 학습 루프


한 가지 눈에 띄는 차이점이 있는 기존 데이터 레이크는 이미지, 비디오, 주석, 표 형식 데이터와 같은 복잡한 데이터를 텐서로 저장하고 GPU 활용도를 희생하지 않고 네트워크를 통해 데이터를 딥 러닝 프레임워크로 빠르게 스트리밍합니다. 또한 PyTorch, TensorFlow 및 JAX와 같은 딥 러닝 프레임워크 간의 기본 상호 운용성을 제공합니다[58, 25, 31].


이 문서의 주요 기술 기여는 다음과 같습니다.


• 객체 스토리지에 동적으로 배열된 배열을 저장하는 Tensor 스토리지 형식 .


• 가져오기, 압축 해제 및 사용자 정의 변환을 예약하고 딥 러닝을 위해 GPU로의 데이터 전송 처리량을 최적화하는 스트리밍 데이터로더 .


• 다차원 배열 데이터 위에서 SQL과 유사한 작업을 실행하는 Tensor Query Language ;


• 객체 스토리지에서 데이터를 스트리밍하고 WebGL을 사용하여 브라우저에서 렌더링하는 브라우저 내 시각화 엔진 .


이 논문의 나머지 부분은 다음과 같이 전개됩니다. 구조화되지 않은 데이터에 대한 딥 러닝의 현재 과제를 고려하는 것부터 시작합니다. 다음으로 TSF(Tensor Storage Format)의 주요 개념을 제시합니다. 또한 ML 주기 내에서 Deep Lake의 기능과 애플리케이션에 대해 논의합니다. 다음으로 성능 실험을 제공하고 결과를 논의합니다. 마지막으로 관련 작업을 검토하고 가능한 제한 사항을 나열한 후 결론을 내립니다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.


[1] 사용 가능한 소스 코드: https://github.com/activeloopai/deeplake


[2] https://docs.deeplake.ai에서 제공되는 문서