paint-brush
Tổng quan về bối cảnh của trình tải dữ liệu: Công việc liên quantừ tác giả@serialization

Tổng quan về bối cảnh của trình tải dữ liệu: Công việc liên quan

từ tác giả The Serialization Publication4m2024/06/04
Read on Terminal Reader

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu nhấn mạnh trình tải dữ liệu là chìa khóa để cải thiện hoạt động đào tạo ML, so sánh các thư viện về chức năng, khả năng sử dụng và hiệu suất.
featured image - Tổng quan về bối cảnh của trình tải dữ liệu: Công việc liên quan
The Serialization Publication HackerNoon profile picture
0-item

tác giả:

(1) Iason Ofeidis, Khoa Kỹ thuật Điện và Viện Khoa học Mạng Yale, Đại học Yale, New Haven {Đóng góp ngang bằng};

(2) Diego Kiedanski, Khoa Kỹ thuật Điện và Viện Khoa học Mạng Yale, Đại học Yale, New Haven {Đóng góp ngang bằng};

(3) Leandros TassiulasLevon Ghukasyan, Activeloop, Mountain View, CA, USA, Khoa Kỹ thuật Điện và Viện Khoa học Mạng Yale, Đại học Yale, New Haven.

Bảng liên kết

6. CÔNG VIỆC LIÊN QUAN

Phần này mô tả một số nỗ lực trong cộng đồng nhằm đánh giá các thư viện, mô hình và khung học tập sâu.


Có rất nhiều công việc hướng tới việc đánh giá các công cụ và phương pháp học sâu. MLPerf (Mattson và cộng sự, 2020) được cho là dự án đo điểm chuẩn ML phổ biến nhất cho khối lượng công việc ML hiện đại nhắm vào cả đào tạo và suy luận, bao gồm nhiều nhiệm vụ AI khác nhau. Các tác giả sử dụng thước đo khách quan của mình là thời gian đào tạo cần thiết để đạt được mức độ chính xác nhất định. Số liệu này yêu cầu tài nguyên tính toán tăng lên và không phù hợp để kiểm tra các tham số của bộ nạp dữ liệu. DeepBench (Baidu-Research, 2020) là một dự án mã nguồn mở của Baidu Research tập trung vào các hoạt động cấp hạt nhân trong hệ thống học sâu; nó đánh giá hiệu suất của các hoạt động riêng lẻ (ví dụ: phép nhân ma trận) được triển khai trong các thư viện và được thực thi trực tiếp trên phần cứng cơ bản. Tương tự, AI Matrix (Zhang và cộng sự, 2019) sử dụng điểm chuẩn vi mô để bao gồm các toán tử cơ bản, đo lường hiệu suất cho các lớp được kết nối đầy đủ và các lớp phổ biến khác, đồng thời khớp với đặc điểm của khối lượng công việc thực tế bằng cách đưa ra điểm chuẩn tổng hợp.


So sánh các khung: Phần này bao gồm các nỗ lực hướng tới việc đo điểm chuẩn và so sánh các khung học sâu khác nhau, chẳng hạn như PyTorch, TensorFlow, v.v.


Trong Deep500 (Ben-Nun và cộng sự, 2019), các tác giả cung cấp khung phần mềm mô-đun để đo lường hiệu suất đào tạo DL; mặc dù có thể tùy chỉnh nhưng nó thiếu điểm chuẩn siêu tham số và không cung cấp cách dễ sử dụng để thêm và thử nghiệm các thư viện và quy trình làm việc mới. AIBench (Gao và cộng sự, 2020) và DAWNBench (Coleman và cộng sự, 2019) đều là các điểm chuẩn toàn diện, sau này là cuộc thi điểm chuẩn dành cho nhiều người tham gia đầu tiên để đo lường hiệu suất toàn diện của các hệ thống học sâu. Giống như MLPerf, không có nghiên cứu nào kiểm tra tác động của các thư viện tải thay thế trong quy trình làm việc của họ. Trong (Wu và cộng sự, 2019), các tác giả trình bày một phân tích có hệ thống về kiểu sử dụng CPU và bộ nhớ cho các thư viện và kích cỡ lô máy tính song song khác nhau cũng như tác động của chúng đến độ chính xác và hiệu quả đào tạo. Phân tích này gần với công việc của chúng tôi; tuy nhiên, nó không cung cấp tài nguyên nguồn mở để tương tác và đánh giá các thư viện mới.


Trong (Shi và cộng sự, 2016), các tác giả so sánh các khung học tập sâu dựa trên hiệu suất của các mạng thần kinh khác nhau (ví dụ: Mạng thần kinh được kết nối đầy đủ, Mạng chuyển đổi và Mạng thần kinh tái phát). dPRO (Hu và cộng sự, 2022) tập trung vào các điểm chuẩn đào tạo phân tán (đa GPU) bằng cách sử dụng một trình hồ sơ thu thập dấu vết thời gian chạy của hoạt động đào tạo DNN phân tán trên nhiều khung. DLBench (Phòng thí nghiệm điện toán không đồng nhất tại HKBU, 2017) là một khung chuẩn để đo lường các công cụ học sâu khác nhau, chẳng hạn như Caffe, Tensorflow và MXNet. Trong (Liu và cộng sự, 2018), các tác giả nghiên cứu tác động của cấu hình mặc định theo từng khung đối với hiệu suất mô hình (thời gian và độ chính xác), thể hiện sự tương tác phức tạp của các tham số DNN và siêu tham số với các đặc điểm dành riêng cho tập dữ liệu. Tuy nhiên, các thử nghiệm chỉ bao gồm các cấu hình mặc định của từng khung và thiếu bất kỳ phân tích nào về các cài đặt không mặc định. Trong (Wu và cộng sự, 2018), các tác giả đã thử nghiệm cấu hình mặc định của các khung và cố gắng tìm ra cấu hình tối ưu cho từng tập dữ liệu; họ cũng kiểm tra quá trình tải dữ liệu nhưng không đánh giá các thư viện của bên thứ ba. Tất cả các tác phẩm đã xuất bản trước đây trong đoạn này, mặc dù có nhiều điểm tương đồng với tác phẩm của chúng tôi, nhưng chúng có một điểm khác biệt đáng kể với nó; họ không tiến hành bất kỳ phân tích hoặc đo điểm chuẩn nào trên PyTorch hoặc hệ sinh thái thư viện để tải dữ liệu được mô tả trong bài viết này, như đã nêu trong phần giới thiệu, hiện là một trong những khung học sâu phổ biến nhất được sử dụng rộng rãi cả trong công nghiệp và học viện .


So sánh các kiến trúc và phần cứng DNN khác nhau: ParaDNN (Wang và cộng sự, 2020) tạo ra các mô hình đầu cuối được tham số hóa để chạy trên các nền tảng mục tiêu, chẳng hạn như thay đổi kích thước lô để thách thức các giới hạn của phần cứng cơ bản, nhưng tập trung vào so sánh các nền tảng chuyên dụng (TPU v2/v3) và kiến trúc thiết bị (TPU, GPU, CPU). Liên quan đến ParaDNN là công trình của (Bianco và cộng sự, 2018), cung cấp một công cụ toàn diện để chọn kiến trúc phù hợp đáp ứng các hạn chế về tài nguyên trong triển khai và ứng dụng thực tế dựa trên phân tích hệ thống phần cứng với các tài nguyên tính toán đa dạng. Tuy nhiên, nó tập trung nhiều hơn vào việc thiết kế các mô hình deep learning hơn là các framework deep learning mà chúng được triển khai trên đó. Trong khi Fathom (Adolf và cộng sự, 2016) và TBD Suite (Zhu và cộng sự, 2018) đều tập trung vào việc đánh giá các kiến trúc mô hình đầy đủ trên nhiều nhiệm vụ và khối lượng công việc đa dạng, chúng bị hạn chế ở những điều này và thiếu điểm chuẩn cho trạng thái. -Đổi mới đào tạo tiên tiến.


Các thiết bị khác: Điểm chuẩn AI (Ignatov và cộng sự, 2018) được cho là bộ điểm chuẩn suy luận di động đầu tiên. Tuy nhiên, kết quả của nó chỉ tập trung vào điện thoại thông minh Android và chỉ đo độ trễ trong khi cung cấp điểm tóm tắt rõ ràng không xác định được mục tiêu chất lượng. (Hadidi và cộng sự, 2019) điều tra khả năng suy luận sâu sắc của DNN từ các khía cạnh về thời gian thực hiện, mức tiêu thụ năng lượng và nhiệt độ. (Tao và cộng sự, 2018) đề cập đến các cấu hình có hành vi phần cứng đa dạng, chẳng hạn như tỷ lệ dự đoán nhánh và khoảng cách tái sử dụng dữ liệu, đồng thời đánh giá độ chính xác, hiệu suất và năng lượng của bộ xử lý thông minh và nền tảng phần cứng. Cả hai tác phẩm này đều được cố định trên nhiều loại thiết bị khác nhau, chẳng hạn như thiết bị biên và bộ xử lý thông minh, nằm ngoài phạm vi của tác phẩm này.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.