paint-brush
Nếu dữ liệu đào tạo tệ thì AI cũng tệtừ tác giả@mytiki
751 lượt đọc
751 lượt đọc

Nếu dữ liệu đào tạo tệ thì AI cũng tệ

từ tác giả mytiki.com5m2023/05/31
Read on Terminal Reader

dài quá đọc không nổi

Rất nhiều dữ liệu đào tạo chết tiệt. Tôi chưa tìm hiểu mối tương quan giữa việc thu thập dữ liệu đào tạo và doanh số bán dao cạo râu của Gillette, nhưng tôi sẽ tưởng tượng có điều gì đó ở đó. Trên hết, nó rất đắt.
featured image - Nếu dữ liệu đào tạo tệ thì AI cũng tệ
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

Một người đàn ông chịu đựng chứng mất ngủ và lăn ra khỏi giường lúc 4:30 sáng. Mặt trời còn hàng giờ nữa mới xuất hiện hàng ngày, nhưng điều đó không quan trọng đối với người đàn ông này. Không cần phải cạo râu. Anh ấy đã không ở trong bốn ngày. Anh ta ngay lập tức châm một điếu thuốc—một điếu thuốc cuộn bằng tay không rõ nguồn gốc (đối với bạn). Anh bật đài. Ngay lập tức tắt nó đi. Khoảnh khắc này xứng đáng với sự im lặng. Nhìn chằm chằm vào gương. Trần truồng. Buck khỏa thân. Nhìn vào chính mình. Sâu vào chính mình. Anh dụi điếu thuốc trên mu bàn tay và ném vào nhà vệ sinh. Cuối cùng, những từ quay cuồng trong não anh lướt qua môi anh trong tiếng thì thầm bực tức-- “Dữ liệu đào tạo của chúng ta tệ thật.”


Và nó cũng đắt!


Hãy nhìn xem, mọi người và bà của họ đều biết AI là rất lớn. Có thể bà của bạn nói chuyện với Snapchat AI nhiều hơn là nói chuyện với bạn. Dù bằng cách nào, trong khi AI chắc chắn cung cấp một yếu tố giải trí, hơn bất cứ điều gì khác, nó có thể hết sức hữu ích . Và các doanh nghiệp đang áp dụng các sáng kiến AI với tốc độ chưa từng thấy. Tôi biết thế giới không cần một blog khác về sự phát triển của AI, nhưng tôi sẽ kết hợp nó trong giây lát.


Đầu tiên, hãy hiểu điều này: Năm 1923, chỉ có 0% doanh nghiệp coi trí tuệ nhân tạo là ưu tiên hàng đầu đối với tổ chức của họ. Ồ. Đến năm 2020, 54% chuyên gia CNTT được khảo sát rất ưu tiên AI. Đến cuối năm 2022, con số đó đã tăng lên 69% (tốt), tăng 15% chỉ sau hai năm.


Tuy nhiên, gần một nửa (47%) người dùng AI/ML đã bắt đầu các sáng kiến của họ trong hai năm qua và 78% số người được khảo sát đã chuyển từ giai đoạn ý tưởng sang giai đoạn thực hiện. Điều đó có nghĩa là gì? Nói một cách thống kê, có rất nhiều doanh nghiệp ngoài kia đang chạy các chương trình và sáng kiến AI hoàn toàn là những người mới tham gia lĩnh vực này và có thể không biết họ đang làm gì. Bao nhiêu phần trăm trong số 47% đó là meme nhà hóa học chó già? Chà, tôi không thể trả lời điều đó cho bạn. Điều tôi có thể nói với bạn là thách thức lớn nhất được báo cáo trong hành trình AI/ML của các công ty là sự thiếu hụt nhân tài lành nghề (67%), tiếp theo là lỗi mô hình và thuật toán (61%). Khi nói đến việc áp dụng AI, rào cản được báo cáo nhiều nhất là chi phí triển khai. Và điều gì chiếm phần lớn nhất trong ngân sách AI? Tìm nguồn cung ứng và triển khai dữ liệu đào tạo, kiểm tra ở mức 13% ngân sách.


Rất nhiều dữ liệu chỉ là phẳng ra xấu . Nó không đáng tin cậy, khó quản lý và hoàn toàn có khả năng AI được đào tạo trên dữ liệu đã được rửa sạch , nghĩa là dữ liệu được sử dụng để đào tạo mô hình được lấy từ một mô hình AI khác đã được đào tạo trên dữ liệu sơ sài. Hãy hét lên với Olga Mack để biết phần giới thiệu về thuật ngữ này.


Vì vậy, dữ liệu rất tệ, đắt tiền, nó có thể tương đương với một chiếc áo phông có lỗi chính tả được mua từ một cửa hàng đồ cũ (hãy cảm ơn chiếc áo sơ mi Nomar “Garciapara” Red Sox của bạn tôi) và một lượng lớn các doanh nghiệp triển khai AI là những sản phẩm mới. và thiếu các nguồn lực và tài năng để khiến mọi thứ hoạt động, chứ đừng nói đến việc duy trì nó bền vững.


Cuối cùng, 87% giám đốc điều hành sẵn sàng trả nhiều tiền hơn để có dữ liệu đào tạo chất lượng cao hơn , trong khi 66% dự đoán nhu cầu về dữ liệu đào tạo của họ chỉ tăng so với 0% trong số họ dự đoán nhu cầu đó sẽ giảm. Đây là mức tăng 0% so với cuộc khảo sát giả tạo năm 1923 của tôi.


Nhiều con số bạn nói? Nhiều số bạn sẽ nhận được. Vào năm 2022, chi tiêu toàn cầu cho trí tuệ nhân tạo là khoảng 118 tỷ đô la . Đến năm 2026, con số này dự kiến sẽ đạt 300 tỷ USD. 13% của 300 tỷ đô la là… 39 tỷ đô la. Bây giờ tôi biết đây không phải là cách hoạt động chính xác của số liệu thống kê, vì vậy đừng ném đá tôi. Nhưng tóm lại: chi tiêu toàn cầu để đào tạo dữ liệu cho AI là một ngành công nghiệp trị giá hàng tỷ đô la. Yếu tố trong đó 66% trong số những người điều hành này mong đợi nhu cầu về dữ liệu đào tạo sẽ tăng lên và 87% sẵn sàng chi nhiều hơn cho dữ liệu chất lượng cao hơn thì… bạn hiểu rồi đấy.

Thêm yếu tố

Trên hết, khả năng tìm nguồn dữ liệu đáng tin cậy vào năm 2023 khó khăn hơn nhiều so với trước đây. Các sáng kiến về quyền riêng tư như GDPR và CCPA nhằm mục đích bảo vệ dữ liệu của người tiêu dùng. Những công ty công nghệ lớn như Google và Apple đang khiến việc thu thập dữ liệu của bên thứ ba ngày càng khó khăn hơn. Các cuộc chiến pháp lý đang diễn ra có dữ liệu đào tạo AI ở vị trí hàng đầu, với quan điểm phổ biến là việc thu thập dữ liệu web để đào tạo AI và tuyên bố “việc sử dụng hợp lý” đó có nguy cơ trở thành dĩ vãng. Một phép so sánh phù hợp có thể là sự sụp đổ của Napster vào đầu những năm 2000. Mặc dù rõ ràng là Napster được hỗ trợ bởi việc chia sẻ bất hợp pháp tài liệu có bản quyền và tài sản trí tuệ, nhưng một quỹ đạo tương tự là điều mà các doanh nghiệp sử dụng AI buộc phải xem xét. Cát có thể lọc qua chiếc đồng hồ cát và bài hát “Chuông nguyện hồn ai” của Metallica có thể sẽ chơi cho những ai chưa nỗ lực để đảm bảo cho các sáng kiến AI của họ trong tương lai.

Spotify mới

Vậy giải pháp là gì? Vâng, nó phức tạp. Nhưng từ đống tro tàn của Napster, Kazaa và Limewire, Spotify đã xuất hiện, hoạt động trên tiền đề xây dựng một thứ gì đó “tốt hơn vi phạm bản quyền”. Điều này liên quan đến việc chia nhỏ các thỏa thuận với các hãng thu âm và đại lý để cấp phép hợp lệ cho nội dung được phát trực tuyến trên nền tảng Spotify. Điều tương tự có thể xảy ra với AI không? Chúng tôi nghĩ vậy. 85% người tiêu dùng sẽ trao đổi dữ liệu để lấy phiếu giảm giá hoặc giảm giá. Điều này mở đường cho mô hình thu thập dữ liệu khuyến khích người dùng tham gia, tạo ra dữ liệu bên thứ ba có giá trị có thể được sử dụng cho nhiều thứ, bao gồm cả đào tạo AI. Chúng tôi đã xây dựng một thứ gì đó để cấp phép cho dữ liệu của bên thứ ba và thậm chí đã xây dựng một tính năng hợp tác với Snowflake để cho phép các doanh nghiệp liệt kê lại dữ liệu của bên thứ ba được cấp phép. Dựa trên mong muốn về dữ liệu đào tạo chất lượng cao hơn, điều này có thể chứng tỏ là một cơ hội to lớn để có thêm nguồn doanh thu cũng như có thể xây dựng lòng trung thành của khách hàng. Nhưng đủ đồ hiệu. Bạn có thể tìm hiểu thêm tại đây .

Tóm tắt…

Rất nhiều dữ liệu đào tạo chết tiệt. Tôi chưa tìm hiểu mối tương quan giữa việc thu thập dữ liệu đào tạo và doanh số bán dao cạo râu của Gillette, nhưng tôi sẽ tưởng tượng có điều gì đó ở đó. Trên hết, nó rất đắt. Ngày càng có nhiều công ty dành thời gian và nguồn lực để triển khai AI, nhưng nhiều công ty trong số họ còn mới tham gia cuộc chơi và thiếu đội ngũ, cơ sở hạ tầng và dữ liệu chất lượng phù hợp để tối ưu hóa các sáng kiến của họ. Các cuộc chiến pháp lý đã cản trở “những cách cũ” trong việc thu thập và tìm nguồn dữ liệu đào tạo AI, đồng thời các sáng kiến về quyền riêng tư đã khiến các doanh nghiệp ngày càng khó thu thập dữ liệu cần thiết để thúc đẩy hoạt động kinh doanh của họ. Tìm đến các công ty như Spotify để tìm cảm hứng, người ta biết rằng có thể vượt qua khía cạnh pháp lý. Với tâm lý của người tiêu dùng về chia sẻ dữ liệu cùng với mong muốn cá nhân hóa và tùy chỉnh nhiều hơn trong trải nghiệm thương hiệu của họ, chúng tôi đã nhận ra một thị trường khổng lồ để cấp phép cho dữ liệu của bên thứ ba để bán lại (trong số nhiều trường hợp sử dụng khác). Này, 13% của 300 tỷ đô la là bao nhiêu?


Viết bởi Shane Faria, đồng sáng lập @TIKI