1,908 okumalar

Metrics Resurrections: Aksiyon! Aksiyon! Aksiyon!

ile Prithwish Mukherjee3m2024/06/11

Çok uzun; Okumak

Kullanıcı Tarafından Bildirilen Metrikler, kullanıcı algısını değerlendirmek için önemli olsa da, yapılandırılmamış doğaları nedeniyle operasyonel hale getirilmesi zordur. Bununla birlikte, LLM'lerdeki son gelişmeler, yapılandırılmamış kullanıcı geri bildirimlerinin yapılandırılmış, eyleme geçirilebilir ölçümlere dönüştürülmesine olanak tanır. Bu, ekiplerin sistem düzeyindeki ölçümlerin yanı sıra kullanıcı algısı üzerindeki etkilerini değerlendirerek performans iyileştirme projelerine daha iyi öncelik vermelerine olanak tanır. Kusursuz olmasa da, bu birleşik yaklaşım, konuşmaya dayalı yapay zeka aracılarında yapılan değişikliklerin etkinliğinin daha kapsamlı bir şekilde anlaşılmasını sağlar. Kullanıcı algısını doğru bir şekilde değerlendirmek ve geliştirmek için her iki ölçüm türünün de değerli olduğunu unutmamak çok önemlidir.

featured image - Metrics Resurrections: Aksiyon! Aksiyon! Aksiyon!

Arka plan

Bu serinin ilk 3 yazısına verilen muhteşem tepkiyi görünce 4. bölümü yayınlamak zorunda kaldım.

Önceki 3 makalede, konuşma yapay zeka aracıları için performans ölçüm tanımlarını, araçları ve ölçeklenebilirliği tartıştık. Önceki makalelere göz atmadıysanız, işte bağlantılar:

Bölüm 1 - Metrikler: Kırmızı Hapı Yutun
Bölüm 2 - Metrikler Yeniden Yüklendi: Oracle
Bölüm 3 - Metrik Devrimi: Ölçeklendirme

Bu makalede, performansı sürekli olarak artırmak için bu ölçümleri nasıl daha uygulanabilir hale getireceğimizi (en son LLM gelişmelerini kullanarak) tartışacağız. Amaç, tartışmayı bu alanda çalışan herkes için basitleştirilmiş ve oldukça yüksek düzeyde tutmak olacaktır.

Sorun

Kullanıcının Algıladığı Metrikler ve Kullanıcının Bildirdiği Metrikler, tartıştığımız 2 üst düzey metrik sınıfıdır. Geleneksel olarak birincisi sistem düzeyinde bir metrik olarak düşünülür; bu metrikler doğrudan günlüklerden ölçülür. Sonuç olarak, Kullanıcının Algıladığı Metrikler doğası gereği eyleme geçirilebilir ve dolayısıyla operasyoneldir.

Operasyonel ölçümler, üretim günlüklerinden düzenli olarak izlenir ve ekip çapında OKR'ler aracılığıyla hedef belirlemek için kullanılabilir.

Bununla birlikte, Kullanıcı Tarafından Algılanan Metriklerin operasyonel hale getirilmesi kolay olsa da, bunların "gerçek" kullanıcı metrikleri değil, "algılanan" olduğu unutulmamalıdır. Sonuç olarak, bu ölçümlerde tepe tırmanmak, kullanıcının konuşma yapay zeka aracınıza ilişkin algısında önemli bir iyileşmeye yol açmayabilir. Bu projelerin birden fazla çeyreğe yayılması durumunda kaynakların verimsiz yönetimine yol açabilir.

Tüm performans iyileştirmelerinin beklenen etkisini doğrudan Kullanıcı Tarafından Bildirilen Metriklerle ölçmenin bir yolu olması gerekir. Bu , “kuzey yıldızı” etkisi olarak değerlendirilmelidir. Peki sorun nedir?

Doğrudan kullanıcı geri bildiriminin, eyleme dönüştürülemeyen ve operasyonel hale getirilmesi farklı olan yapılandırılmamış olması beklenir.

Kullanıcı tarafından rapor edilen ayrıntılı geri bildirim, doğası gereği yapılandırılmamış olmalıdır. Kullanıcı tarafından bildirilen geri bildirim yapılandırılmışsa, iç ekibin halihazırda farkında olduğu alanlara odaklanılabilir. Kullanıcı Raporlu Metrikler bunların yanı sıra sezonsallık ve şirket algısı gibi faktörlerden de etkilenmektedir.

Kullanıcı Tarafından Algılanan Metrikler üzerindeki etki daha doğru bir şekilde tahmin edilebilir ancak Kullanıcı Tarafından Bildirilen Metrikler birçok kontrol edilemeyen faktöre sahiptir.

Çözüm

Yapılandırılmamış Kullanıcı Tarafından Bildirilen Geri Bildirim, işlem yapılabilir hale getirilebilecek yapılandırılmış bir formata dönüştürülmelidir. Yapılandırılmamış geri bildirimleri mevcut sistem düzeyindeki ölçümlere dönüştürmek amacıyla eğitilmiş belirli makine öğrenimi modelleri olabilir.

Bu metriklerdeki doğal çarpıklığa karşı koruma sağlamak amacıyla Kullanıcı Tarafından Bildirilen Metrikler'in "en son" kullanıcı metriği regresyonlarına yönelik birincil amacını kullanmanın daha pratik olabileceği unutulmamalıdır. Daha yatay, uzun vadeli projeler için bu ölçümler, sistem düzeyindeki ölçümlerin yanı sıra kullanıcı algısı üzerindeki etkiyi ölçmek için kullanılmalıdır.

Yüksek Lisanslar Oyunun Kurallarını Değiştirenlerdir

Şimdi şu soru kalıyor: Aradığımız belirli ölçümler için makine öğrenimi modellerini eğitmek için gereken çaba nedir? LLM'lerin popülaritesi ve kullanılabilirliğindeki son artışla birlikte, yapılandırılmamış geri bildirimleri sistem düzeyindeki ölçümlere benzer şekilde izlenebilen ve ölçülebilen bir şeye dönüştürmek için kullanıma hazır API'leri kullanmak mümkün olabilir.

LLM'lerin işleyebileceği token sayısındaki artışla birlikte, ürüne özgü pek çok bilginin "istemin" bir parçası olarak verilebileceğini unutmamak önemlidir. Sonuç olarak, kullanıma hazır LLM API'leri , hızlı mühendislikle birlikte eyleme geçirilebilir Kullanıcı Tarafından Bildirilen Metrikler sağlayabilir.

Bu, sistem düzeyinde metrik iyileştirme projelerinin kullanıcı algısı üzerindeki etkisini değerlendirmek için gerçekten hızlı bir yol sağlar ve bu, performans iyileştirme projelerine öncelik verilmesinde faydalı olabilir.

Bu yapılandırılmış Kullanıcı Tarafından Bildirilen Metrikler yaklaşımıyla bile, beklenmeyen değişikliklere hâlâ yer vardır. Bununla birlikte, belirli bir proje (sistem düzeyinde bir ölçümü iyileştirmeyi amaçlayan) Raporlanan Metrikleri olumlu yönde etkilerse, o zaman projenin büyük olasılıkla kullanıcı algısını iyileştirdiği bir düzeyde güvenle varsayılabilir.

Ancak, gerçekte "iyi" olan tüm değişikliklerin Kullanıcı Tarafından Bildirilen Metrikleri her zaman etkili bir şekilde iyileştireceğine dair bir garanti yoktur. Sonuç olarak, performans iyileştirme projelerini önceliklendirmek ve değerlendirmek için her ikisinin bir karışımını kullanmak önemlidir.