paint-brush
딥러닝을 위한 호수집 Deep Lake: 관련 연구~에 의해@dataology

딥러닝을 위한 호수집 Deep Lake: 관련 연구

너무 오래; 읽다

연구원들은 딥 러닝 프레임워크를 위한 복잡한 데이터 스토리지 및 스트리밍을 최적화하는 딥 러닝용 오픈 소스 레이크하우스인 Deep Lake를 소개합니다.
featured image - 딥러닝을 위한 호수집 Deep Lake: 관련 연구
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

저자:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) Abhinav Tuli, Activeloop, 미국 캘리포니아주 마운틴뷰;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) Fariz Rahman, Activeloop, 미국 캘리포니아주 마운틴뷰;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) David Isayan, Activeloop, 미국 캘리포니아주 마운틴뷰;

(7) 마크 맥퀘이드(Mark McQuade), 미국 캘리포니아주 마운틴뷰 소재 Activeloop;

(8) Mikayel Harutyunyan, Activeloop, 미국 캘리포니아주 마운틴뷰;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.

링크 표

8. 관련 업무

여러 프로젝트에서 Protobuf를 확장하는 TFRecord [5], Parquet을 확장하는 Petastorm [18], Parquet를 확장하는 [79], Feather [7] 화살표를 확장하는 [13], Squirrel을 사용하는 MessagePack [75] 등 비정형 데이터 세트를 저장하기 위한 새로운 형식을 개선하거나 생성하려고 시도했습니다. FFCV의 Beton [39]. 모든 사용 사례를 해결하는 범용 데이터 세트 형식을 설계하는 것은 매우 어렵습니다. 우리의 접근 방식은 대부분 대용량 생체 의학 데이터를 저장하기 위한 4차원 청크 NumPy 스토리지인 CloudVolume[11]에서 영감을 받았습니다. Zarr [52], TensorStore [23], TileDB [57]와 같은 다른 유사한 청크 분할 NumPy 배열 저장 형식이 있습니다. Deep Lake는 타이핑 시스템, 동적으로 형성되는 텐서, 빠른 딥 러닝 스트리밍 데이터 로더와의 통합, 텐서에 대한 쿼리 및 브라우저 내 시각화 지원을 도입했습니다. 대규모 데이터 세트를 저장하는 또 다른 접근 방식은 Lustre[69]와 같은 HPC 분산 파일 시스템을 사용하고 PyTorch 캐시[45]로 확장하거나 AIStore[26]와 같은 고성능 스토리지 계층을 사용하는 것입니다. Deep Lake 데이터세트는 장점을 활용하여 POSIX 또는 REST API 호환 분산 스토리지 시스템 위에 저장할 수 있습니다. 다른 비교 가능한 접근법은 임베딩 저장을 위한 벡터 데이터베이스[80, 8, 80], 특징 저장소[73, 16] 또는 DVC[46] 또는 LakeFS[21]와 같은 데이터 버전 제어 시스템에서 발전합니다. 반면 Deep Lake 버전 제어는 Git을 포함한 외부 종속성 없이 형식에 내장되어 있습니다. TQP [41] 및 Velox [59] 접근 방식과 유사한 Tensor Query Language는 딥 러닝 프레임워크의 모든 기능을 실제로 활용하여 텐서 스토리지에서 n차원 수치 연산을 실행합니다. 전반적으로 Deep Lake는 Hudi, Iceberg, Delta[27, 15, 10]와 같은 데이터 레이크와 유사하며 Deep Learning 애플리케이션을 위해 Databarick의 Lakehouse[28]와 같은 시스템을 보완합니다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.