Dữ liệu của bên thứ nhất đã hoạt động trở lại… Với sự trợ giúp nhỏ từ bạn bè của nó. Vectors, RAG và LLAMA 3 đang thúc đẩy sự thay đổi trên biển như thế nào
Trong 5 năm qua, câu chuyện nổi bật xung quanh cơ sở hạ tầng dữ liệu đã nhấn mạnh tầm quan trọng của việc các công ty sở hữu và tận dụng dữ liệu của mình khi họ thu thập được càng nhiều thông tin về người dùng và khách hàng càng tốt. Do có nhiều quy định về quyền riêng tư, họ cần tự thu thập dữ liệu thay vì dựa vào các nhà khai thác dữ liệu của bên thứ ba, chẳng hạn như các mạng quảng cáo hoặc nền tảng như Google, Meta và Amazon . Các công ty đã đi theo câu chuyện này và thực hiện sự thay đổi.
Tuy nhiên, trong cuộc chiến giành dữ liệu tốt nhất, liệu bên thứ nhất có thực sự tốt hơn? Bản thân nó không phải vậy mà có thể có một chút trợ giúp từ các vectơ, khung như RAG và các mô hình nền tảng nguồn mở như Llama 3 .
Lập luận về dữ liệu của bên thứ nhất thường như sau: các công ty cần trở thành người quản lý tốt hơn việc thu thập và quản lý dữ liệu trong bối cảnh nhu cầu về quyền riêng tư dữ liệu ngày càng tăng. Người tiêu dùng ngày càng muốn biết ai đang nắm giữ thông tin cá nhân của họ, làm thế nào họ có được thông tin đó, tại sao họ có thông tin đó và điều gì đang được thực hiện với thông tin đó– và họ thường không thích câu trả lời cho những câu hỏi đó.
Nhưng việc chuyển sang bên thứ nhất không chỉ dừng lại ở quyền riêng tư. Ngoài ra còn có quan điểm cho rằng dữ liệu của bên thứ ba sẽ mất giá trị khi chúng ta hướng tới tương lai không có cookie. Các công ty không thể có được thông tin chi tiết như trước đây, vậy tại sao họ phải dành ngân sách cho một dịch vụ cung cấp ít hơn trước đây?
Và sau đó là mối lo ngại thường trực rằng các nền tảng và mạng quảng cáo lớn sẽ tạo ra những thay đổi bất ngờ. Ví dụ: họ có thể thay đổi thuật toán, hạn chế quyền truy cập vào một số loại dữ liệu nhất định hoặc thay đổi chính sách quảng cáo theo cách có thể gây tổn hại đến hiệu quả hoạt động của doanh nghiệp mà không cần thông báo trước. Việc phụ thuộc vào hoạt động của công ty khác khiến một người dễ bị tổn thương. Các công ty cảm thấy bế tắc vì họ đã đầu tư quá nhiều thời gian, tiền bạc và nguồn lực vào chiến lược dữ liệu của mình. Trong bối cảnh này, việc thúc đẩy giành lại quyền kiểm soát dữ liệu dường như là điều cần thiết. Nhưng nó có thực tế không?
Kết quả ban đầu của các công ty tham gia canh bạc vào dữ liệu của bên thứ nhất chưa đạt được kỳ vọng. Chúng ta đang chứng kiến hết trường hợp này đến trường hợp khác của các công ty tiêu dùng đã khiến cho sự thay đổi này gặp khó khăn.
Tuy nhiên, sự phụ thuộc hiện tại vào dữ liệu của bên thứ nhất – và các phương pháp trích xuất dữ liệu đó – là điểm chung ở một số công ty đang trải qua thời kỳ khó khăn hơn hiện nay. Nó đủ đáng chú ý để khiến chính các nhà phân tích, quỹ đầu tư mạo hiểm và nhà tiếp thị tự hỏi liệu họ có sai lầm khi ưu tiên dữ liệu của bên thứ nhất hay không.
Nhược điểm của dữ liệu của bên thứ nhất, như dữ liệu hiện được thu thập và tận dụng, thường được coi là đánh giá thấp sự biến mất của ID thiết bị, thay đổi địa chỉ IP, việc người tiêu dùng sử dụng email giả và trình chặn quảng cáo. Mặc dù đúng, nhưng có nhiều vấn đề quan trọng hơn đang diễn ra.
Đầu tiên, có một khoảng cách lớn về tài năng. Big Tech và các công ty nền tảng nắm bắt được những điều tốt nhất. Họ có nhiều thứ nhất để cung cấp, gây khó khăn cho các công ty tiêu dùng mới nổi trong việc cạnh tranh để có được các nhà khoa học dữ liệu và tài năng ML cần thiết để hiểu được thông tin đang được thu thập và phân tích. Không có những con người thực sự xuất sắc, các công ty sẽ gặp khó khăn.
Ngoài ra còn có một vấn đề công cụ thực sự. Các dịch vụ dành cho các công ty không hề tương đương với những công cụ mà các công ty Big Tech tự hào trong nội bộ (điều này có thể là một yếu tố tạo ra khoảng cách nhân tài). Công cụ tạo nên sự khác biệt và hầu hết các công ty hiện tại không thể cạnh tranh được.
Cuối cùng, có một thách thức về khối lượng. Big Tech và các mạng quảng cáo có hàng núi dữ liệu, vì các công ty này tổng hợp và ẩn danh hàng trăm tỷ điểm dữ liệu để giúp mô hình của họ hoạt động hiệu quả. Ngược lại, nếu một công ty chỉ có dữ liệu để làm việc thì sẽ không có đủ dữ liệu để ML hoạt động như đã hứa.
Mặc dù những vấn đề này có vẻ nghiêm trọng nhưng đã đến lúc từ bỏ tiềm năng và nhu cầu về dữ liệu của bên thứ nhất? Không đời nào!
Vấn đề lớn nhất cản trở dữ liệu của bên thứ nhất là cách các công ty cố gắng truy cập dữ liệu đó. Cho đến thời điểm này, các doanh nghiệp đã áp dụng cách tiếp cận của Thế giới Cũ. Các mô hình phải được xây dựng từ đầu để trích xuất giá trị từ dữ liệu mà doanh nghiệp yêu cầu. Việc này cần có thời gian, tiền bạc và hơn hết là tài năng; nó phụ thuộc vào kỹ sư ML và nhà khoa học dữ liệu của bạn giỏi đến mức nào. Tuy nhiên, như đã thảo luận ở trên, không có đủ nhân lực để làm cho phương pháp này hoạt động tốt hơn việc tận dụng dữ liệu của bên thứ ba. Việc thiếu nhân tài tạo ra nút thắt.
Tuy nhiên, điều này không có nghĩa là chúng ta cần từ bỏ dữ liệu của bên thứ nhất. Chúng ta chỉ cần thay đổi cách tiếp cận nó. Trong Thế giới Mới, điều có thể thực hiện được ngày nay, vectơ và việc nhúng vectơ là chìa khóa. Vectơ là các đối tượng toán học chung có thể biểu thị các tính năng hoặc thuộc tính của điểm dữ liệu trong khi nhúng các mô hình phân tích các mẫu trong dữ liệu để tạo ra các biểu diễn có ý nghĩa, chứa đầy thông tin học được từ dữ liệu; họ nắm bắt được các mối quan hệ ngữ nghĩa. Tệp nhúng vectơ là định dạng có thể mã hóa mọi thứ bạn biết về người dùng hoặc khách hàng và làm cho thông tin đó có thể truy cập được vào hệ thống phân tích hoặc có thể tận dụng để cá nhân hóa trải nghiệm người dùng hoặc thậm chí để phát hiện gian lận. Có rất nhiều khả năng. Các vectơ sẵn sàng thúc đẩy một sự thay đổi lớn vì chúng có thể cung cấp năng lượng cho hoạt động phân tích theo một cách cơ bản khác.
Hiện tại, thế hệ tăng cường truy xuất (RAG) đang tạo ra nhiều tiếng vang cho tất cả những gì nó có thể kích hoạt, nhưng việc nhúng vectơ là điều khiến RAG trở nên hữu ích. Chúng là thành phần trung tâm của khung giúp xử lý bối cảnh, phản hồi, tích hợp truy xuất và tinh chỉnh các mô hình. Tạo các vectơ chất lượng cao và truy vấn chúng một cách chính xác là một nhiệm vụ quan trọng cho phép bất kỳ hệ thống RAG nào thực sự hoạt động. Có các khung khác, nhưng RAG đặc biệt phù hợp cho cuộc cách mạng dữ liệu của bên thứ nhất.
Âm thanh tuyệt vời. Tất cả chúng ta hãy tìm hiểu cách sử dụng vectơ và nhúng vectơ. Đây không phải là câu trả lời tổng thể. Các vấn đề như bộ dữ liệu và công cụ còn hạn chế. Tất cả vẫn chưa được gói gọn trong một chiếc nơ xinh xắn, nhưng tôi tin rằng điều đó sẽ sớm xảy ra. Bởi vì các mô hình nền tảng mã nguồn mở, được đào tạo trước như Llama 2 của Meta, sẽ nhường chỗ cho Llama 3 mạnh mẽ hơn vào tháng 7, có thể san bằng sân chơi. Vấn đề không có đủ khối lượng dữ liệu so với BigTech được giảm thiểu. Bằng cách sử dụng mô hình nguồn mở được đào tạo trước trên các tập dữ liệu lớn và đa dạng, mô hình đó đã tích hợp sẵn một mức độ kiến thức và hiểu biết nhất định. Các công ty chỉ cần tinh chỉnh Llama 2 (hoặc Llama 3) trên miền hoặc nhiệm vụ cụ thể của họ bằng dữ liệu. Điều này giúp giảm bớt nút thắt cổ chai vì trong nhiều trường hợp, bạn không còn phải đào tạo mô hình từ đầu nữa.
Điều này nghe có vẻ đơn giản hóa quá mức, vì Llama giúp các công ty xử lý văn bản, nhưng hầu hết dữ liệu mà các công ty sử dụng không phải là văn bản. Các công ty dữ liệu có cấu trúc đang hoạt động cần được tích hợp vào quy trình này. Ví dụ: các sự kiện hành vi của người dùng thường tạo thành một tỷ lệ lớn dữ liệu của bên thứ nhất, thường không phù hợp để bất kỳ LLM nào xử lý. Điều này đang thay đổi nên các công ty nên sẵn sàng khi các giải pháp đa phương thức mới xuất hiện. Tương tự như vậy, công cụ vẫn còn thiếu, nhưng có rất nhiều sự chú ý đến không gian nên những bước tiến lớn đang được thực hiện. Nó đang đi tới!
Với những vấn đề lớn nhất đã được giải quyết một cách cơ bản, sự cường điệu về dữ liệu của bên thứ nhất đã quay trở lại, em yêu! Các công ty không phải lo lắng về việc bên thứ ba vi phạm quyền riêng tư, cũng như không phải phụ thuộc vào Big Tech để giúp họ biết về khách hàng của mình. Hy vọng dữ liệu của bên thứ nhất sẽ bùng nổ trong năm nay khi các công ty cuối cùng đã tận dụng tối đa lợi thế – đặc biệt là với Llama 3 đã sẵn sàng. Đối với tất cả những lời hứa của nó, có lẽ tiềm năng lớn nhất của Llama 3 sẽ là thực sự giải quyết được vấn đề dữ liệu của bên thứ nhất một lần và mãi mãi.