Thấy 3 bài đầu tiên của loạt bài này phản hồi rất ấn tượng nên tôi đành phải ra phần 4.
Trong 3 bài viết trước, chúng ta đã thảo luận về định nghĩa, công cụ đo lường và khả năng mở rộng chỉ số hiệu suất cho các tác nhân AI hội thoại. Trong trường hợp bạn chưa xem các bài viết trước, đây là các liên kết:
Trong bài viết này, chúng ta sẽ thảo luận về cách làm cho các số liệu này trở nên hữu dụng hơn (sử dụng các tiến bộ LLM mới nhất) để liên tục cải thiện hiệu suất. Mục đích là giúp cuộc thảo luận được đơn giản hóa và ở mức độ khá cao cho mọi người làm việc trong lĩnh vực này.
Chỉ số cảm nhận của người dùng và Chỉ số do người dùng báo cáo là 2 loại chỉ số cấp cao mà chúng ta đã thảo luận. Theo truyền thống, chỉ số trước được coi là chỉ số cấp hệ thống - những chỉ số này được đo trực tiếp từ nhật ký. Do đó, về bản chất, các Chỉ số cảm nhận của người dùng có thể thực hiện được và do đó có thể hoạt động được.
Các số liệu hoạt động được theo dõi thường xuyên từ nhật ký sản xuất và có thể được sử dụng để thiết lập mục tiêu OKR cho toàn nhóm.
Tuy nhiên, mặc dù các Chỉ số cảm nhận của người dùng rất dễ vận hành nhưng cần lưu ý rằng đây là các chỉ số người dùng “được nhận thức” chứ không phải “thực tế”. Do đó, việc vượt lên trên các số liệu này có thể không dẫn đến sự cải thiện đáng kể trong nhận thức của người dùng về tác nhân AI đàm thoại của bạn. Điều này có thể dẫn đến việc quản lý tài nguyên kém hiệu quả nếu các dự án này trải dài trên nhiều quý.
Cần có một cách để đo lường tác động dự kiến của tất cả các cải tiến hiệu suất trực tiếp bằng Chỉ số do người dùng báo cáo. Điều này nên được coi là tác động của “sao bắc đẩu”. Vì vậy, vấn đề là gì?
Phản hồi trực tiếp của người dùng dự kiến sẽ không có cấu trúc, không thể thực hiện được và khác với cách vận hành.
Về bản chất, phản hồi chi tiết do người dùng báo cáo phải không có cấu trúc. Nếu phản hồi do người dùng báo cáo được thực hiện có cấu trúc thì cuối cùng phản hồi đó có thể tập trung vào các lĩnh vực mà nhóm nội bộ đã biết. Ngoài ra, Chỉ số do người dùng báo cáo cũng bị ảnh hưởng bởi các yếu tố như tính thời vụ và nhận thức về công ty.
Tác động đến Chỉ số nhận thức của người dùng có thể được ước tính chính xác hơn nhưng Chỉ số do người dùng báo cáo có rất nhiều yếu tố không thể kiểm soát được.
Phản hồi không có cấu trúc do người dùng báo cáo phải được chuyển đổi thành định dạng có cấu trúc để có thể thực hiện được. Có thể có các mô hình ML cụ thể được đào tạo nhằm mục đích chuyển đổi phản hồi phi cấu trúc thành các số liệu cấp hệ thống hiện có.
Cần lưu ý rằng có thể thực tế hơn khi sử dụng mục tiêu chính của Chỉ số do người dùng báo cáo cho hồi quy chỉ số người dùng "gần đây" để bảo vệ khỏi sự sai lệch cố hữu trong các chỉ số này. Đối với các dự án dài hạn theo chiều ngang hơn, các số liệu này nên được sử dụng để đo lường tác động đến nhận thức của người dùng cùng với các số liệu cấp hệ thống.
Bây giờ câu hỏi vẫn là nỗ lực cần thiết để đào tạo các mô hình ML cho các số liệu cụ thể mà chúng tôi đang tìm kiếm là gì? Với sự gia tăng mức độ phổ biến và tính sẵn có của LLM gần đây, có thể sử dụng các API sẵn có để chuyển đổi phản hồi phi cấu trúc thành thứ có thể được theo dõi và đo lường tương tự như các chỉ số cấp hệ thống.
Điều quan trọng cần lưu ý là với sự gia tăng số lượng mã thông báo mà LLM có thể xử lý, rất nhiều thông tin dành riêng cho sản phẩm có thể được cung cấp như một phần của chính “lời nhắc”. Do đó, các API LLM sẵn có cùng với một số kỹ thuật nhanh chóng có thể cung cấp các Chỉ số do người dùng báo cáo hữu ích.
Điều này cung cấp một cách thực sự nhanh chóng để đánh giá tác động của các dự án cải thiện chỉ số cấp hệ thống đối với nhận thức của người dùng. Điều này có thể hữu ích trong việc ưu tiên các dự án cải thiện hiệu suất.
Ngay cả với cách tiếp cận Chỉ số do người dùng báo cáo có cấu trúc này, vẫn có chỗ cho những thay đổi không mong muốn. Tuy nhiên, có thể giả định với mức độ tin cậy nhất định rằng nếu một dự án cụ thể (nhằm cải thiện chỉ số cấp hệ thống) có tác động tích cực đến Chỉ số được báo cáo thì dự án đó rất có thể thực sự đang cải thiện nhận thức của người dùng.
Tuy nhiên, không có gì đảm bảo rằng tất cả các thay đổi thực sự “tốt” sẽ luôn cải thiện hiệu quả các Chỉ số do người dùng báo cáo. Do đó, điều quan trọng là phải sử dụng kết hợp cả hai để ưu tiên và đánh giá các dự án cải thiện hiệu suất.