paint-brush
Yüksek Lisans'ın Artılarını, Eksilerini ve Risklerini Analiz Etmekile@minio
8,815 okumalar
8,815 okumalar

Yüksek Lisans'ın Artılarını, Eksilerini ve Risklerini Analiz Etmek

ile MinIO5m2024/04/02
Read on Terminal Reader

Çok uzun; Okumak

Büyük Dil Modelleri (LLM'ler), insan gibi bir zihne sahip bilgisayar programlarıdır. Yüksek Lisans'ın gücü, onları oluşturmak için kullanılan eğitim setindeki kelimelerin olasılık dağılımını anlayacak şekilde eğitilmiş olmalarıdır. Bu insana benzer sonuçların elde edilmesi, veri ve güçlü bir veri depolama çözümü gerektirecektir.
featured image - Yüksek Lisans'ın Artılarını, Eksilerini ve Risklerini Analiz Etmek
MinIO HackerNoon profile picture


Son zamanlarda Büyük Dil Modellerinin (LLM) harikaları hakkında çok şey söylendi. Bu övgülerin çoğu hak edilmiştir. ChatGPT'den Genel Görelilik Teorisini açıklamasını isteyin; çok iyi (ve doğru) bir yanıt alacaksınız. Ancak günün sonunda ChatGPT hala (diğer tüm LLM'ler gibi) kendi talimat setini körü körüne yürüten bir bilgisayar programıdır. Genel Görelilik Teorisini en sevdiğiniz evcil hayvanınızdan daha iyi anlayamıyor. Ne yazık ki mühendislerin bunları oluşturmak için kullandığı teknikleri tanımlamak için "insan benzeri" sözcükler kullanıyoruz - örneğin "makine öğrenimi" ve "eğitim". Bu yanıltıcıdır çünkü LLM'nin insan gibi bir zihni yoktur.


Burada belli bir ironi var: Düşünmeyen bir chatbot, şimdiye kadar yaşamış en zeki adamın bulgularını nasıl doğru bir şekilde özetleyebilir? Yüksek Lisans'ların bu çelişkili doğasını anlamak için, bunları Güçlü Yönler, Zayıf Yönler ve Tehlikeler açısından daha fazla inceleyelim ve ilkinden yararlanıp diğer ikisini azaltmak için verileri ve MinIO gibi bir depolama çözümünü nasıl kullanabileceğimizi görelim. Bunlar, kuruluşları için LLM'leri eğitirken, test ederken ve dağıtırken her mühendisin aklında olması gereken tekniklerdir.

Güç

Yüksek Lisans'ın gücü, onları oluşturmak için kullanılan eğitim setindeki kelimelerin olasılık dağılımını anlayacak şekilde eğitilmiş olmalarıdır. Eğitim seti yeterince büyükse (örneğin, bir Vikipedi makaleleri topluluğu veya GitHub'daki genel kod), o zaman modeller, sonuçlarının sanki gerçek dünyadaki bir anlayışa sahipmiş gibi görünmesini sağlayacak bir kelime dağarcığına ve buna karşılık gelen bir olasılık dağılımına sahip olacaktır. çıktı aldıkları metin. Başka bir örneği daha detaylı inceleyelim; bu kez Felsefe'den. ChatGPT'ye şu soruyu sorun: "'Cogito, ergo sum' ne anlama geliyor ve bunu kim yazdı?" ve aşağıdaki metne benzer bir şey elde edeceksiniz.


"Cogito, ergo sum", İngilizce'de "Düşünüyorum, öyleyse varım" anlamına gelen Latince bir felsefi önermedir. Bu ifade ünlü bir Fransız filozof, matematikçi ve bilim adamı olan René Descartes ile ilişkilendirilir. Descartes bu fikri 1637'de yayınlanan "Yöntem Üzerine Söylem" adlı eserinde dile getirdi. Bu ifade, Descartes'ın şüphe edilemeyecek temel bir gerçeği - düşünen bir varlık olarak kişinin kendi varoluşunun kesinliğini - oluşturma girişimini yansıtıyor.


Yüksek Lisans'lar olasılık dağılımlarını kullanarak buna benzer sonuçlar üretir. Şöyle bir işliyor, sorudaki metne bakarak başlıyorlar ve “Cogito” kelimesinin cevabın ilk kelimesi olma olasılığının en yüksek olduğunu belirliyorlar. Oradan soruya ve cevabın ilk kelimesine bakarak bir sonraki olma olasılığı en yüksek olan kelimeyi belirlerler. Bu, özel bir "cevap sonu" karakterinin en yüksek olasılığa sahip olduğu belirlenene kadar devam eder.


Milyarlarca olasılığa dayalı bir doğal dil yanıtı oluşturma yeteneği, korkulacak bir şey değil; daha ziyade iş değeri için kullanılması gereken bir şeydir. Modern teknikleri kullandığınızda sonuçlar daha da iyi olur. Örneğin, Alma Artırılmış Üretim (RAG) ve İnce Ayarlama gibi teknikleri kullanarak, bir Yüksek Lisans Programına kendi işletmeniz hakkında eğitim verebilirsiniz. İnsana benzer bu sonuçları elde etmek veri gerektirecek ve altyapınızın güçlü bir veri depolama çözümüne ihtiyacı olacak.


Bu sonraki belirteç tahmin yetenekleri yalnızca sohbet robotunuz veya pazarlama metniniz için harika metinler oluşturmak için kullanılamaz, aynı zamanda uygulamanızda otomatik karar almayı etkinleştirmek için de kullanılabilir. Bir sorun bildirimi ve çağrılabilecek API'ler (“işlevler”) hakkında bilgi içeren akıllıca oluşturulmuş istemler göz önüne alındığında, bir Yüksek Lisans'ın dil anlayışı, hangi “işlev”in çağrılması gerektiğini açıklayan bir yanıt üretmesini sağlayacaktır. Örneğin, sohbete dayalı bir hava durumu uygulamasında kullanıcı şu soruyu sorabilir: "Bu gece Fenway Park'a gideceksem yağmurluğa ihtiyacım var mı?" Bir Yüksek Lisans, akıllı yönlendirmelerle sorgudan (Boston, MA) konum verilerini çıkarabilir ve Weather.com Precipitation API'ye yönelik bir talebin nasıl formüle edilebileceğini belirleyebilir.


Uzun bir süre boyunca yazılım geliştirmenin en zor kısmı, doğal dil ile API çağrıları gibi sözdizimsel sistemler arasındaki arayüz oluşturmaktı. İronik bir şekilde bu en basit kısımlardan biri olabilir. Metin oluşturmaya benzer şekilde, LLM işlev çağırma davranışının kalitesi ve güvenilirliği, insan geri bildirimi (RLHF) ile ince ayar ve takviyeli öğrenmenin kullanılmasıyla desteklenebilir.

Artık Yüksek Lisans'ın hangi konularda iyi olduğunu ve neden iyi olduğunu anladığımıza göre, Yüksek Lisans'ın neyi yapamayacağını araştıralım.

Zayıflık

Yüksek Lisans'lar düşünemez, anlayamaz veya akıl yürütemez. Bu, Yüksek Lisans'ın temel sınırlamasıdır. Dil modelleri, kullanıcının sorusu hakkında akıl yürütme yeteneğinden yoksundur. Bunlar, kullanıcının sorusuna gerçekten iyi bir tahmin üreten olasılık makineleridir. Bir şey ne kadar iyi bir tahmin olursa olsun, yine de bir tahmindir ve bu tahminleri yaratan her şey, sonunda doğru olmayan bir şeyi ortaya çıkaracaktır. Üretken yapay zekada buna "Halüsinasyon" adı veriliyor.


Doğru şekilde eğitildiğinde halüsinasyonlar minimumda tutulabilir. İnce ayar ve RAG ayrıca halüsinasyonları da büyük ölçüde azaltıyor. Sonuç olarak, bir modeli doğru bir şekilde eğitmek, ona ince ayar yapmak ve ona ilgili bağlamı (RAG) vermek için, onu uygun ölçekte depolayacak ve performanslı bir şekilde sunacak veri ve altyapı gerekir.


Yüksek Lisans eğitimlerinin bir başka yönüne daha bakalım; bunu tehlike olarak sınıflandıracağım çünkü onları test etme yeteneğimizi etkiliyor.

Tehlike

Yüksek Lisans'ın en popüler kullanımı Üretken Yapay Zekadır. Üretken yapay zeka, bilinen bir sonuçla karşılaştırılabilecek spesifik bir yanıt üretmez. Bu, kolayca test edilebilecek belirli bir tahminde bulunan diğer yapay zeka kullanım durumlarının tersidir. Görüntü tespiti, kategorize etme ve regresyon için modelleri test etmek kolaydır. Peki üretken yapay zeka için kullanılan yüksek lisans eğitimlerini tarafsız, gerçeklere sadık ve ölçeklenebilir bir şekilde nasıl test edersiniz? Kendiniz uzman değilseniz, Yüksek Lisans'ın ürettiği karmaşık yanıtların doğru olduğundan nasıl emin olabilirsiniz? Uzman olsanız bile, gerçek kişi olan incelemeciler CI/CD hattında gerçekleştirilen otomatik testlerin bir parçası olamazlar.


Sektörde yardımcı olabilecek birkaç kriter var. GLUE (Genel Dil Anlama Değerlendirmesi), LLM'lerin performansını değerlendirmek ve ölçmek için kullanılır. Modellerin insan dilini işleme yeteneğini değerlendiren bir dizi görevden oluşur. SuperGLUE, daha zorlu dil görevleri sunan GLUE kıyaslamasının bir uzantısıdır. Bu görevler, ortak referans çözümlemesini, soru yanıtlamayı ve daha karmaşık dilsel olguları içerir.


Yukarıdaki kıyaslamalar faydalı olsa da çözümün büyük bir kısmı kendi veri toplamanız olmalıdır. Tüm soruları ve cevapları günlüğe kaydetmeyi ve özel bulgulara dayalı olarak kendi testlerinizi oluşturmayı düşünün. Bu aynı zamanda ölçeklenecek ve performans gösterecek şekilde oluşturulmuş bir veri altyapısı gerektirecektir.

Çözüm

İşte aldın. Yüksek Lisans'ın güçlü, zayıf yönleri ve tehlikeleri. İlkinden yararlanıp diğer ikisinin etkisini azaltmak istiyorsanız verilere ve bunların çoğunu yönetebilecek bir depolama çözümüne ihtiyacınız olacak.