paint-brush
Sự hồi sinh của các số liệu: Hành động! Hoạt động! Hoạt động!từ tác giả@pmukherjee
1,908 lượt đọc
1,908 lượt đọc

Sự hồi sinh của các số liệu: Hành động! Hoạt động! Hoạt động!

từ tác giả Prithwish Mukherjee3m2024/06/11
Read on Terminal Reader

dài quá đọc không nổi

Các số liệu do người dùng báo cáo, tuy quan trọng trong việc đánh giá nhận thức của người dùng, nhưng lại khó vận hành do tính chất phi cấu trúc của chúng. Tuy nhiên, những tiến bộ gần đây trong LLM cho phép chuyển đổi phản hồi không có cấu trúc của người dùng thành các số liệu có cấu trúc, có thể thực hiện được. Điều này cho phép các nhóm ưu tiên tốt hơn các dự án cải thiện hiệu suất bằng cách đánh giá tác động của chúng đối với nhận thức của người dùng cùng với các chỉ số cấp hệ thống. Mặc dù không thể đánh lừa được nhưng cách tiếp cận kết hợp này cung cấp sự hiểu biết toàn diện hơn về hiệu quả của những thay đổi được thực hiện đối với các tác nhân AI đàm thoại. Điều quan trọng cần nhớ là cả hai loại số liệu đều có giá trị để đánh giá và cải thiện nhận thức của người dùng một cách chính xác.
featured image - Sự hồi sinh của các số liệu: Hành động! Hoạt động! Hoạt động!
Prithwish Mukherjee HackerNoon profile picture

Lý lịch

Thấy 3 bài đầu tiên của loạt bài này phản hồi rất ấn tượng nên tôi đành phải ra phần 4.


Trong 3 bài viết trước, chúng ta đã thảo luận về định nghĩa, công cụ đo lường và khả năng mở rộng chỉ số hiệu suất cho các tác nhân AI hội thoại. Trong trường hợp bạn chưa xem các bài viết trước, đây là các liên kết:



Trong bài viết này, chúng ta sẽ thảo luận về cách làm cho các số liệu này trở nên hữu dụng hơn (sử dụng các tiến bộ LLM mới nhất) để liên tục cải thiện hiệu suất. Mục đích là giúp cuộc thảo luận được đơn giản hóa và ở mức độ khá cao cho mọi người làm việc trong lĩnh vực này.

Vấn đề

Chỉ số cảm nhận của người dùng Chỉ số do người dùng báo cáo là 2 loại chỉ số cấp cao mà chúng ta đã thảo luận. Theo truyền thống, chỉ số trước được coi là chỉ số cấp hệ thống - những chỉ số này được đo trực tiếp từ nhật ký. Do đó, về bản chất, các Chỉ số cảm nhận của người dùng có thể thực hiện được và do đó có thể hoạt động được.


Các số liệu hoạt động được theo dõi thường xuyên từ nhật ký sản xuất và có thể được sử dụng để thiết lập mục tiêu OKR cho toàn nhóm.


Tuy nhiên, mặc dù các Chỉ số cảm nhận của người dùng rất dễ vận hành nhưng cần lưu ý rằng đây là các chỉ số người dùng “được nhận thức” chứ không phải “thực tế”. Do đó, việc vượt lên trên các số liệu này có thể không dẫn đến sự cải thiện đáng kể trong nhận thức của người dùng về tác nhân AI đàm thoại của bạn. Điều này có thể dẫn đến việc quản lý tài nguyên kém hiệu quả nếu các dự án này trải dài trên nhiều quý.


Cần có một cách để đo lường tác động dự kiến của tất cả các cải tiến hiệu suất trực tiếp bằng Chỉ số do người dùng báo cáo. Điều này nên được coi là tác động của “sao bắc đẩu”. Vì vậy, vấn đề là gì?


Phản hồi trực tiếp của người dùng dự kiến sẽ không có cấu trúc, không thể thực hiện được và khác với cách vận hành.


Về bản chất, phản hồi chi tiết do người dùng báo cáo phải không có cấu trúc. Nếu phản hồi do người dùng báo cáo được thực hiện có cấu trúc thì cuối cùng phản hồi đó có thể tập trung vào các lĩnh vực mà nhóm nội bộ đã biết. Ngoài ra, Chỉ số do người dùng báo cáo cũng bị ảnh hưởng bởi các yếu tố như tính thời vụ và nhận thức về công ty.


Tác động đến Chỉ số nhận thức của người dùng có thể được ước tính chính xác hơn nhưng Chỉ số do người dùng báo cáo có rất nhiều yếu tố không thể kiểm soát được.

Giải pháp

Phản hồi không có cấu trúc do người dùng báo cáo phải được chuyển đổi thành định dạng có cấu trúc để có thể thực hiện được. Có thể có các mô hình ML cụ thể được đào tạo nhằm mục đích chuyển đổi phản hồi phi cấu trúc thành các số liệu cấp hệ thống hiện có.


Cần lưu ý rằng có thể thực tế hơn khi sử dụng mục tiêu chính của Chỉ số do người dùng báo cáo cho hồi quy chỉ số người dùng "gần đây" để bảo vệ khỏi sự sai lệch cố hữu trong các chỉ số này. Đối với các dự án dài hạn theo chiều ngang hơn, các số liệu này nên được sử dụng để đo lường tác động đến nhận thức của người dùng cùng với các số liệu cấp hệ thống.

LLM là người thay đổi cuộc chơi

Bây giờ câu hỏi vẫn là nỗ lực cần thiết để đào tạo các mô hình ML cho các số liệu cụ thể mà chúng tôi đang tìm kiếm là gì? Với sự gia tăng mức độ phổ biến và tính sẵn có của LLM gần đây, có thể sử dụng các API sẵn có để chuyển đổi phản hồi phi cấu trúc thành thứ có thể được theo dõi và đo lường tương tự như các chỉ số cấp hệ thống.


Điều quan trọng cần lưu ý là với sự gia tăng số lượng mã thông báo mà LLM có thể xử lý, rất nhiều thông tin dành riêng cho sản phẩm có thể được cung cấp như một phần của chính “lời nhắc”. Do đó, các API LLM sẵn có cùng với một số kỹ thuật nhanh chóng có thể cung cấp các Chỉ số do người dùng báo cáo hữu ích.


Điều này cung cấp một cách thực sự nhanh chóng để đánh giá tác động của các dự án cải thiện chỉ số cấp hệ thống đối với nhận thức của người dùng. Điều này có thể hữu ích trong việc ưu tiên các dự án cải thiện hiệu suất.


Ngay cả với cách tiếp cận Chỉ số do người dùng báo cáo có cấu trúc này, vẫn có chỗ cho những thay đổi không mong muốn. Tuy nhiên, có thể giả định với mức độ tin cậy nhất định rằng nếu một dự án cụ thể (nhằm cải thiện chỉ số cấp hệ thống) có tác động tích cực đến Chỉ số được báo cáo thì dự án đó rất có thể thực sự đang cải thiện nhận thức của người dùng.


Tuy nhiên, không có gì đảm bảo rằng tất cả các thay đổi thực sự “tốt” sẽ luôn cải thiện hiệu quả các Chỉ số do người dùng báo cáo. Do đó, điều quan trọng là phải sử dụng kết hợp cả hai để ưu tiên và đánh giá các dự án cải thiện hiệu suất.