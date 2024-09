Điều làm cho GPT-3 và Dalle trở nên mạnh mẽ giống hệt nhau: Dữ liệu.

Dữ liệu rất quan trọng trong lĩnh vực của chúng tôi và các mô hình của chúng tôi cực kỳ ngốn dữ liệu. Các mô hình lớn này, mô hình ngôn ngữ cho GPT hoặc mô hình hình ảnh cho Dalle, đều yêu cầu giống nhau: quá nhiều dữ liệu.

Bạn càng có nhiều dữ liệu thì càng tốt. Vì vậy, bạn cần mở rộng quy mô các mô hình đó, đặc biệt là đối với các ứng dụng trong thế giới thực.

Các mô hình lớn hơn có thể sử dụng bộ dữ liệu lớn hơn để cải thiện chỉ khi dữ liệu có chất lượng cao.

Việc cung cấp những hình ảnh không đại diện cho thế giới thực sẽ không có tác dụng gì và thậm chí còn làm xấu đi khả năng khái quát của mô hình. Đây là lúc AI tập trung vào dữ liệu phát huy tác dụng ...

Tìm hiểu thêm trong video:

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/data-centric-ai/

► AI tập trung vào dữ liệu: https://snorkel.ai/data-centric-ai

► Giám sát yếu: https://snorkel.ai/weak-supervision/

► Ghi nhãn theo chương trình: https://snorkel.ai/programmatic-labeling/

►Danh sách tài nguyên bão hòa cho AI làm trung tâm dữ liệu: https://github.com/hazyresearch/data-centric-ai

►Tìm hiểu thêm về Snorkel: https://snorkel.ai/company/

►Từ lấy mô hình làm trung tâm đến AI làm trung tâm dữ liệu - Andrew Ng:

►Software 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2

►Paper 1: Ratner, AJ, De Sa, CM, Wu, S., Selsam, D. and Ré, C.,

2016. Lập trình dữ liệu: Tạo các tập huấn luyện lớn, nhanh chóng. Những tiến bộ

trong hệ thống xử lý thông tin thần kinh, 29.

►Paper 2: Ratner, A., Bach, SH, Ehrenberg, H., Fries, J., Wu, S. và

Ré, C., 2017, tháng 11. Ống thở: Tạo dữ liệu đào tạo nhanh chóng nhưng yếu

sự giám sát. Trong Kỷ yếu VLDB Endowment. Quốc tế

Hội nghị về Cơ sở Dữ liệu Rất lớn (Tập 11, Số 3, trang 269). NIH Public

Truy cập.

►Paper 3: Ré, C. (2018). Phần mềm 2.0 và ống thở: Beyond Hand-Labeled

Dữ liệu. Kỷ yếu Hội nghị Quốc tế ACM SIGKDD lần thứ 24 về

Khám phá kiến thức & Khai thác dữ liệu.

►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/

