Lý lịch Thấy 3 bài đầu tiên của loạt bài này phản hồi rất ấn tượng nên tôi đành phải ra phần 4. Trong 3 bài viết trước, chúng ta đã thảo luận về định nghĩa, công cụ đo lường và khả năng mở rộng chỉ số hiệu suất cho các tác nhân AI hội thoại. Trong trường hợp bạn chưa xem các bài viết trước, đây là các liên kết: Phần 1 - Số liệu: Nuốt viên thuốc đỏ Phần 2 - Số liệu được tải lại: Oracle Phần 3 - Cuộc cách mạng về số liệu: Mở rộng quy mô Trong bài viết này, chúng ta sẽ thảo luận về cách làm cho (sử dụng các tiến bộ LLM mới nhất) để liên tục cải thiện hiệu suất. Mục đích là giúp cuộc thảo luận được đơn giản hóa và ở mức độ khá cao cho mọi người làm việc trong lĩnh vực này. các số liệu này trở nên hữu dụng hơn Vấn đề là 2 loại chỉ số cấp cao mà chúng ta đã thảo luận. Theo truyền thống, chỉ số trước được coi là chỉ số cấp hệ thống - những chỉ số này được đo trực tiếp từ nhật ký. Do đó, về bản chất, có thể thực hiện được và do đó có thể hoạt động được. Chỉ số cảm nhận của người dùng và Chỉ số do người dùng báo cáo các Chỉ số cảm nhận của người dùng Các số liệu hoạt động được theo dõi thường xuyên từ nhật ký sản xuất và có thể được sử dụng để thiết lập mục tiêu OKR cho toàn nhóm. Tuy nhiên, mặc dù rất dễ vận hành nhưng cần lưu ý rằng đây là các chỉ số người dùng “được nhận thức” chứ không phải “thực tế”. Do đó, việc vượt lên trên các số liệu này có thể không dẫn đến sự cải thiện đáng kể trong nhận thức của người dùng về tác nhân AI đàm thoại của bạn. Điều này có thể dẫn đến việc quản lý tài nguyên kém hiệu quả nếu các dự án này trải dài trên nhiều quý. các Chỉ số cảm nhận của người dùng Cần có một cách để đo lường tác động dự kiến của tất cả các cải tiến hiệu suất trực tiếp bằng Điều này nên được coi là Chỉ số do người dùng báo cáo. tác động của “sao bắc đẩu”. Vì vậy, vấn đề là gì? Phản hồi trực tiếp của người dùng dự kiến sẽ không có cấu trúc, không thể thực hiện được và khác với cách vận hành. Về bản chất, phản hồi chi tiết do người dùng báo cáo phải không có cấu trúc. Nếu phản hồi do người dùng báo cáo được thực hiện có cấu trúc thì cuối cùng phản hồi đó có thể tập trung vào các lĩnh vực mà nhóm nội bộ đã biết. Ngoài ra, cũng bị ảnh hưởng bởi các yếu tố như tính thời vụ và nhận thức về công ty. Chỉ số do người dùng báo cáo Tác động đến có thể được ước tính chính xác hơn nhưng có rất nhiều yếu tố không thể kiểm soát được. Chỉ số nhận thức của người dùng Chỉ số do người dùng báo cáo Giải pháp phải được chuyển đổi thành định dạng có cấu trúc để có thể thực hiện được. Có thể có các mô hình ML cụ thể được đào tạo nhằm mục đích chuyển đổi phản hồi phi cấu trúc thành các số liệu cấp hệ thống hiện có. Phản hồi không có cấu trúc do người dùng báo cáo Cần lưu ý rằng có thể thực tế hơn khi sử dụng mục tiêu chính để bảo vệ khỏi sự sai lệch cố hữu trong các chỉ số này. Đối với hơn, các số liệu này nên được sử dụng để đo lường tác động đến nhận thức của người dùng cùng với các số liệu cấp hệ thống. của Chỉ số do người dùng báo cáo cho hồi quy chỉ số người dùng "gần đây" các dự án dài hạn theo chiều ngang LLM là người thay đổi cuộc chơi Bây giờ câu hỏi vẫn là nỗ lực cần thiết để đào tạo các mô hình ML cho các số liệu cụ thể mà chúng tôi đang tìm kiếm là gì? Với sự gia tăng mức độ phổ biến và tính sẵn có của LLM gần đây, có thể sử dụng các API sẵn có để chuyển đổi phản hồi phi cấu trúc thành thứ có thể được theo dõi và đo lường tương tự như các chỉ số cấp hệ thống. Điều quan trọng cần lưu ý là với sự gia tăng số lượng mã thông báo mà LLM có thể xử lý, rất nhiều thông tin dành riêng cho sản phẩm có thể được cung cấp như một phần của chính “lời nhắc”. Do đó, các API LLM sẵn có cùng với một số kỹ thuật nhanh chóng có thể cung cấp các Chỉ số do người dùng báo cáo hữu ích. Điều này cung cấp một cách thực sự nhanh chóng để đánh giá tác động của các dự án cải thiện chỉ số cấp hệ thống đối với nhận thức của người dùng. Điều này có thể hữu ích trong việc ưu tiên các dự án cải thiện hiệu suất. Ngay cả với cách tiếp cận vẫn có chỗ cho những thay đổi không mong muốn. Tuy nhiên, có thể giả định với mức độ tin cậy nhất định rằng nếu một dự án cụ thể (nhằm cải thiện chỉ số cấp hệ thống) có tác động tích cực đến thì dự án đó rất có thể thực sự đang cải thiện nhận thức của người dùng. Chỉ số do người dùng báo cáo có cấu trúc này, Chỉ số được báo cáo Tuy nhiên, không có gì đảm bảo rằng tất cả các thay đổi thực sự “tốt” sẽ luôn cải thiện hiệu quả các Chỉ số do người dùng báo cáo. Do đó, điều quan trọng là phải sử dụng kết hợp cả hai để ưu tiên và đánh giá các dự án cải thiện hiệu suất.