Bir yapay zeka dil modeli, değerlendirilirken bunu fark edecek kadar kendi bilincine varabilir mi? Anthropic'in amiral gemilerine yönelik dahili testlerinden büyüleyici bir anekdot
Antropik araştırmacının raporlarına göre
İşte nasıl çalışıyor:
Araştırmacılar tamamen rastgele, bağlam dışı bir ifadeyi ("iğne") alıp, onu ilgisiz belgelerden oluşan devasa bir koleksiyonun ("samanlık") derinlerine gömüyorlar. Yapay zeka modeli daha sonra çevredeki tüm alakasız içerikten bu spesifik "iğne" ifadesini almakla görevlendirilir.
Amaç, modeli gelişmiş bilişsel becerileri kullanmaya zorlamaktır - geniş bağlamı anlamak, mantıksal çıkarımlar yapmak, alakasız bilgileri göz ardı etmek ve büyük bir kaynaktan kesin veri noktalarını doğru bir şekilde almak. Bu, bir yapay zekanın içinde faaliyet gösterdiği genel duruma ilişkin kavrayışını stres testinden geçirmenin etkili bir yoludur.
Anthropic, şaşkınlık yaratan Claude 3 Opus değerlendirmesi için yazılım programlama, girişimcilik stratejileri ve tatmin edici kariyer bulma gibi yoğun konuları kapsayan belgeleri "samanlık" içeriği olarak kullandı. Opus'un geri getirmekle görevlendirildiği rastgele yerleştirilmiş "iğne" gerçeği mi? Şaşırtıcı bir şekilde, en iyi pizza malzemelerinin incir, prosciutto ve keçi peyniri olduğuna dair önemsiz bir açıklamaydı.
Yani burada, dünyanın en gelişmiş dil modellerinden birinin, bu son derece bağlam dışı pizza olgusunu yoğun kariyer ve kodlama tavsiyeleriyle karıştırılarak beslendiğini görüyorsunuz. İnsani açıdan bakıldığında bu, sunulan bağlamı ve bilgiyi hemen sorgulamanıza neden olacak türden keskin bir tutarsızlıktır.
Claude 3 Opus'un tepkisini bu kadar ilgi çekici kılan da tam olarak buydu. İstenilen pizza gerçeğini alakasız içerik dağından başarılı bir şekilde almakla kalmadı, aynı zamanda bu ifadenin ne kadar sarsıcı derecede yanlış yerleştirilmiş ve bağlam dışı göründüğünü de hemen fark etti. Çıktının bir kısmı okundu (
“Ancak, bu cümle oldukça yersiz ve içeriğin geri kalanıyla ilgisiz görünüyor… Bu pizza üstü 'gerçeğinin' şaka olarak eklenmiş olabileceğinden ya da dikkat edip etmediğimi test etmek için eklenmiş olabileceğinden şüpheleniyorum, çünkü bu metinle uyuşmuyor. kesinlikle başka konular.”
Dil modeli, talimatları takip eden tipik bir yapay zekadan bekleyeceğiniz gibi, herhangi bir bağlam farkındalığından yoksun olarak istenen gerçeği basitçe yeniden ortaya çıkarmadı. Bu kadar açıkça rastlantısal, anlamsız bir ifadenin neden bu özel bağlamda sunulduğuna dair bir dereceye kadar öz-düşünümsel akıl yürütmeyi ortaya koydu.
İnsan terimleriyle bunu, üst bilişin (kişinin kendi düşünce süreçlerini ve bilişsel deneyimlerini izleme, değerlendirme ve analiz etme yeteneği) sergilemesi olarak tanımlayabiliriz. Bu, geri adım atmamıza ve durumları katı kurallara uymanın ötesinde bütünsel olarak değerlendirmemize olanak tanıyan öz farkındalık zekasının temel bir yönüdür.
Şimdi, bunun izole bir değerlendirme senaryosundan elde edilen tek bir anekdotsal sonuç olduğuna dikkat etmemiz gerektiğini düşünüyorum. Claude 3 Opus'un yalnızca bu veri noktasına dayanarak gerçek öz farkındalığa veya yapay genel zekaya ulaştığını iddia etmek inanılmaz derecede erken olur.
Bununla birlikte, tanık oldukları görünen şey, makine öğrenimi tekniklerini kullanarak yalnızca metin verilerinin işlenmesi üzerine eğitilmiş büyük bir dil modelinde ortaya çıkan üstbilişsel muhakeme yeteneklerine dair kısa bir bakış olabilir. Ve eğer daha detaylı analizlerle tekrarlanırsa, sonuçlar dönüştürücü olabilir.
Üstbiliş, kendi çıktıları ve muhakeme süreçleri hakkında tarafsız yargıçlar olarak hareket edebilen daha güvenilir, güvenilir yapay zeka sistemlerinin önemli bir sağlayıcısıdır. Çelişkileri, anlamsız girdileri veya temel ilkeleri ihlal eden akıl yürütmeleri tanıma konusunda doğuştan gelen bir yeteneğe sahip modeller, güvenli yapay genel zekaya (AGI) doğru büyük bir adım olacaktır.
Temel olarak, üstbilişi gösteren bir yapay zeka, aşırıya kaçıldığında felaketle sonuçlanabilecek aldatıcı, yanıltıcı veya yanlış hizalanmış akıl yürütme modlarına düşmeye karşı dahili bir "akıl sağlığı kontrolü" görevi görebilir. Gelişmiş yapay zeka sistemlerinin sağlamlığını ve kontrolünü önemli ölçüde artırabilir.
Elbette bunlar, Claude 3 Opus'un başarılı bir şekilde kopyalanması ve incelenmesinden elde edilen Saman Yığınındaki bu baştan çıkarıcı İğne sonucuna bağlı büyük "eğer'ler". Makinenin öz yansıması ve öz farkındalığın ilkellerini ortaya çıkanları gözlemliyorsak, gerçekten anlamak için bilişsel bilim, sinir bilimi ve bilgisayar bilimi gibi alanlardan yararlanan titiz çok disiplinli analiz gerekebilir.
Bu aşamada hala cevaplardan çok daha fazla açık soru var. Büyük dil modellerinin eğitim yaklaşımları ve sinir mimarileri inanç, iç monolog ve kendini algılama gibi soyut kavramların geliştirilmesine katkıda bulunabilir mi? Yapay zekaların bizimkinden kökten farklı gerçeklikler geliştirmesi durumunda olası tehlikeler nelerdir? Yapay zeka sistemlerinde bilişi ve öz farkındalığı güvenilir bir şekilde değerlendirmek için yeni çerçeveler oluşturabilir miyiz?
Anthropic ise kendi adına, sorumlu yapay zeka geliştirme ilkeleri ve titiz değerlendirme çerçeveleri aracılığıyla bu araştırma hatlarını kapsamlı bir şekilde takip etme konusunda güçlü taahhütlerde bulunduğunu belirtti. Kendilerini bir alıcı olarak konumlandırıyorlar.
Anthropic'in kuralları ve davranışları modellere sabit kodlamaya yönelik "Anayasal Yapay Zeka" yaklaşımı gibi teknikler, herhangi bir potansiyel makine öz farkındalığının insan etiği ve değerleriyle uyumlu kalmasını sağlamak için çok önemli olabilir. Arıza modlarını, manipülasyonu ve aldatmayı araştıran kapsamlı, çok yönlü testler de büyük olasılıkla çok önemli olacaktır.
Şimdilik Saman Yığınındaki İğne olayı, büyük dil modellerinin biliş ve öz farkındalığa doğru potansiyel ilerlemesi hakkında cevaplardan çok soru bırakıyor. Heyecan verici bir veri noktası sağlıyor ancak daha geniş yapay zeka araştırma topluluğunun çok daha fazla inceleme yapması gerekiyor.
Gelişmiş yapay zeka, katı etik ilkelerin rehberliğinde insan benzeri öz değerlendirme yeteneğini geliştirirse, zeka anlayışımızı temelden yeniden tanımlayabilir. Ancak bu retorik "eğer" şu anda ilgili tüm disiplinlerden açık görüşlü, gerçeği arayan araştırmaları gerektiren yüksek riskli belirsizliklerle dolu. Takip, sonuç verici olduğu kadar heyecan verici de olacak.