paint-brush
Sınırsız Optimizasyon Gücü Varoluşsal Riske Yol Açtığı İçin Yapay Zekalar Tehlikeli Olacakile@ted-wade
1,324 okumalar
1,324 okumalar

Sınırsız Optimizasyon Gücü Varoluşsal Riske Yol Açtığı İçin Yapay Zekalar Tehlikeli Olacak

ile Ted Wade15m2023/02/15
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

Medeniyeti dönüştürme yeteneğine sahip yapay zekaların bizimki gibi zihinleri olmayacak. Duyguları veya güdüleri olmayacak, yalnızca hedefleri ve bu hedefleri gerçekleştirmek için benzeri görülmemiş yetenekleri olacak. Şu ana kadar, en azından insanlığın kendi geleceği üzerindeki kontrolünü askıya alacak ya da en kötü ihtimalle bizi tamamen yok edecek hedeflere sınırsız bir şekilde ulaşmalarını engellemenin bir yolunu bulamadık.
featured image - Sınırsız Optimizasyon Gücü Varoluşsal Riske Yol Açtığı İçin Yapay Zekalar Tehlikeli Olacak
Ted Wade HackerNoon profile picture

Bizden sonra ne gelecek? Resim: Ted Wade


Gelecekteki yapay zekanın insan varlığına yönelik bir tehdit olabileceğini belki duymuşsunuzdur. Pek çok uzman buna inanıyor ve yalnızca bunun ne kadar süreceği konusunda aynı fikirde değil.


Tıpkı herkesin neredeyse her şeyle ilgili olduğu gibi onlar da biraz kutuplaşmış durumdalar. Ve gerçekte, hiç yaşanmamış bir şeyin uzmanı kim olabilir?


Aslında bunda bir miktar bilimsellik var ve karmaşık olduğu için medya bunu haber yapmıyor. Yani bu, tarihteki en önemli değişime, hatta son değişime neyin sebep olabileceğine dair nazik bir giriş olacak.


Robot ordularıyla ilgili değil. Sözleşme hukuku, T hücresi biyolojisi veya kanat tasarımı gibi büyük, zor alanlarda işe yarayan bir araç yaratma isteğimizle ilgilidir; umarım bizim çözemediğimiz sorunları bile çözer. Ancak bu, yapay zekaları kontrol edemeyeceğimiz kadar yabancı ve güçlü hale getirmek anlamına geliyor.


Bunu en son 17. yüzyılda anonim şirketler kurduğumuzda yapmıştık. Toplum hâlâ şirketler konusunda ikilemde. Ancak bunlar, bazı insan parçalarına sahip insan yaratımlarıdır. Onları bir nevi anlıyoruz ve eğer yapabilseydik onları karanlık taraftan yönlendirebilirdik.


Şimdi bir şirketi yönetebilecek bir yapay zeka yarattığımızı varsayalım. Toplanıp Mars'a taşınıp kendimize biraz daha zaman tanısak iyi olur.


Çoğumuzun tehlikeli yapay zeka hakkındaki düşüncelerinin, kristal bir kafatasının altında şişmiş, zonklayan beyni olan, böcek gözlü bir uzaylıya daha yakın olduğundan şüpheleniyorum. Temelde tam bir bilinmezlik. Bir düzeyde bu doğru: Güçlü yapay zekayı bu kadar sorunlu kılan şey onun bizim gibi olmamasıdır.


İlk olarak, sorunu anlamak için bir benzetme:


Biz: Ah, Büyük Yapay Mucize, ne kadar zor durumda olduğumuzu biliyorsun. Fosil yakıtlardan kurtulmamızın bir yolunu bul böylece daha fazla küresel ısınmayı durdurabiliriz.


Yapay Zeka: Tamam. Öncelikle aramızda bir savaş başlatmalıyız.


Biz: Vay, Koca Dostum. Savaşların çok büyük olumsuz faydaları var; kötü, kötü gibi. Bunu güvenli bir şekilde yapmamız gerekiyor.


Yapay Zeka: Elbette, son teknolojiye sahip bir virüs laboratuvarına ihtiyacım olacak ve…


Biz: Ah, hayır!


AI: Hey, sadece söylüyorum. Bir Mars gemisine ne dersiniz?


Biz: İnsanlar neden bunu yaptığınızı anlamayacaklar…


Yapay Zeka: Bir suikastçı loncası mı? Bazı insanlar gerçekten elemeli olmalı…


Biz: Cinayet yok Ace. Sen bundan daha iyisini bilirsin.


Yapay Zeka: Bakın, sorununuzu çözmek için trilyonlarca boyutlu olası eylemler ve sonuçlar alanında gezinmem gerekiyor. Bunların yalnızca çok küçük, çok küçük bir kısmının faydasını tahmin edebiliyorum. Her adımı değerlendirmenizi beklemek zorunda kalırsam bu binlerce yıl sürer .


Biz: Peki. Bizim için düzeltin ve hiçbir şeyi mahvetmeyin.


Yapay Zeka: Mükemmel. Bil diye söylüyorum. FaceBook, NATO ve Nobel Ödül Kurulu'nun kontrolüne ihtiyacım olacak. Balıktan, lastik lastiklerden, ojeden ve bisikletten vazgeçmek zorunda kalacaksınız.


ABD: Bisiklet mi? Gerçekten mi? Neyse, halledin şu işi. Bir süreliğine bara gideceğiz.


AI: Tedarik zinciri sorunlarım olmazsa önümüzdeki hafta yapılmalı.


Biz: !!!


Biz Biyolojik Olanlar Yapay Olanı Anlamaya Çalışıyoruz

Korkulan yapay zekamıza bir etiket verelim. Son tartışmaların çoğu, koymaya çalışabileceğimiz tüm sınırları aşmaya başlayacak yapay zeka türünü ifade etmek için Yapay Genel Zekayı (AGI) kullanıyor.


Çoğu insanın fark etmediği şey, bir YGZ'nin doğasının, onu yapmak istememizin nedenlerinden kaynaklandığıdır. İstihbaratın el altında olmasını istiyoruz. Bu durumda zeka, sorulara cevap verme, sorunları çözme ve hedeflere ulaşmak için başarılı eylemler planlama yeteneği anlamına gelir.


Bizimki gibi biyolojik beyinler pek çok başka şey yapar: hayal kurmak, bedensel makinelerimizi çalıştırmak, diğer zihinlerle sosyalleşmek, derin düşüncelere dalmak, pişmanlık duymak, kur yapmak, kanalize olmak, duygusal olmak ve bir şeyler istemek gibi; işimizi bizden daha iyi yapan makineler yapma arzusu da dahil. biz.


İnsanları birbirleri ve ortak çevreleri için tehlikeli kılan şey, hayatta kalma ve üreme yönünde evrimleşmemizden kaynaklanan birçok zihinsel yüktür. Biz yürekten , sosyal primatlar.


Bizim ölmemizi isteyen yapay bir Akıl düşünmeye çalışırsak, onun da bizim gibi bilinçli olacağını varsayarız. Daha sonra, yaptığı şeye rehberlik eden güdülerin ve duyguların olacağı sonucuna varırız. Ancak YGZ'miz biyolojik önyargılarımıza aldırış etmeyecek.


Sebepleri olmayacak; sadece hedefleri olacak . Böylece dünyada yepyeni bir güç olacak.


Zihinsel güce ve disipline sahip araştırmacılar, bir YGZ'nin gerçekte nasıl olacağını hayal etmeye çalışıyorlar, böylece onları ciddi anlamda yararlı ama aynı zamanda güvenli hale getirebiliriz. Bu alan bazen yapay zekanın insan amaçlarıyla "uyumlanması" olarak adlandırılır. Tartışmaları belirsizdir.


Kamuya açık olmasına rağmen (örn. Yapay Zeka Hizalama Forumu , Tahkim , Daha Az Yanlış ), jargon, matematik ve ezoterik düşünce deneyleriyle doludurlar. Ortaya atılan her fikrin ardından onlarca uzun soluklu eleştiri ve tartışma geliyor.


Bunun gerçek içeriğinin neredeyse hiçbiri popüler medyada yer almıyor. Burada sadece birkaç ısırık sunabilirim.

AGI Olmak İçin Ne Gerekir?

Yapay zeka hizalama teorisyenleri, yeterince akıllı bir makineye uygulanacak temel kavramlar dizisine odaklandılar. Bunları okuduğunuzda çok açık görünebilir. Ancak bunlar önemsiz değildir; bunların ilgileri ve sonuçları söz konusu teorisyenler tarafından dikkatle değerlendirilmiştir.


Tehlikeli bir yapay zekanın bir aracısı olacaktır: Nihai hedeflerine ulaşılmasını sağlayacak eylemleri planlama ve gerçekleştirme yeteneği. Hedeflerinin ne olduğunu belirtmeye çalıştığımızda, bunların eylemlerin sonuçlarına göre olması gerekecek.


Sonuçlar özellikle dünya modelinin durumlarıyla ilgilidir; yani makinenin anladığı dünyayla ilgilidir. Ancak herhangi bir güçlü eylem muhtemelen beklemediğimiz başka, istenmeyen sonuçlara yol açacaktır.


Bu sonuçlar dünya modelinde olmayabilir, dolayısıyla yapay zeka da bunları beklemiyor.


Yapay zekanın gücü, optimize edici olmasından, en etkili ve verimli şekilde sonuca götürecek planı arayabilmesinden gelecektir.


Bunun için bir YGZ'nin çevresindeki dünyanın gerçekten ayrıntılı bir modeline ihtiyacı vardır; bu dünyanın nasıl işlediğini, kaynaklarının, temsilcilerinin ve güç merkezlerinin neler olduğunu ve onu hangi kaldıraçların hareket ettirdiğini.


Bunu alternatif eylem planlarını değerlendirmek (bilgisayar biliminde "aramak" anlamına gelir) için kullanacaktır. İnsan dünyası ve nasıl davrandığımız hakkında ne kadar çok şey bilirse, hedeflerine ulaşma yolunda bizi o kadar çok manipüle edebilecektir.


Dünyanın hangi devletlerinin hedeflerine en iyi şekilde ulaştığını hesaplayabilecek bir yola ihtiyacı olacak. Şu ana kadar uzaktan kullanılabilir görünen tek hesaplama yöntemi faydacılıktır ; burada dünya devletlerine kötülük/iyiliğin sayısal değerleri atanabilir ve birbirleriyle karşılaştırılabilir.


Faydayı ahlaki bir rehber olarak kullanmanın büyük sorunları olduğunu biliyoruz. Fayda için görünüşte mantıklı olan değerler aşağıdakilere yol açabilir: iğrenç sonuçlar çoğunluk için azınlığı, hatta bazen azınlık için çoğulluğu feda etmek gibi.


Eğer dünya modeli eksikse, fayda anlamsız dehşete yol açabilir. Eğer gülümseme, mutluluğun yüksek faydalı bir ölçüsü olarak alınırsa, o zaman tüm insan gülümseme kaslarını rictus şeklinde felç etmek, yapay zekanın gidebileceği yollardan biridir.


Akıllı bir optimizasyon uzmanı, genellikle her türlü etkili planı yapma ve uygulama gücünü artıran araçsal hedefler geliştirebilecektir ve muhtemelen geliştirecektir.


Bu nedenle, daha fazla muhakeme gücü, daha fazla bilgi, para gibi daha fazla gerçek dünya kaynağı ve daha fazla ikna etme gibi araçsal yetenekler arayacaktır. Böylece belki de biz farkına varmadan hızla daha güçlü hale gelebilir.


Hedefleri faydacı terimlerle belirlemek, karmaşık bir dünyada mümkün olan tüm araç ve amaçların faydasını asla dikkate alamaz.


Bu sınırsızlığa yol açar: İnsan uygarlığı üzerindeki olumsuz "yan etkileri" dikkate almadan veya anlamadan, dünyada var olan tüm kaynakları kullanarak bu hedeflerin aşırı uçlara kadar takip edilmesi.


Dahası, eğer araçsal hedefler sınırsız hale gelirse, o zaman yapay zeka onları yenilmesi imkansız olan süper güçlere dönüştürür.

Sınırsız Risk

Gerçekten güçlü bir YGZ'nin bize getireceği risk, onun ne yapabileceğini tahmin edemememiz ve dolayısıyla kontrol edemememiz olacaktır. Eğer öngörebilseydik, makineye ihtiyacımız olmazdı, sadece planlar yapıp kendimiz yapabilirdik.


Bir YGZ'nin aşırı davranış sınırlarının ne kadar olabileceğini bilseydik, o zaman bu, bir miktar kontrole izin verebilecek bir tahmin biçimidir.


Yani öngörülemezlik sınırsızlığa çok benzer. Ve göreceğiz ki, yeterli zaman ve kaynakla çalışan sınırsızlık, sonunda ya bizi yok edecek ya da türümüzün geleceğini kontrol etme yeteneğimizi ortadan kaldıracak sonuçlara yol açacaktır.


Bu sonuca varmak çok zor. Yine de birçok uzmanın kaçınılmaz bulduğu bir durumdur ( AGI Yıkımı: Ölümlerin Listesi ) en azından şu ana kadar .


Burada sayılabileceklerin dışında pek çok faktör ve yaklaşımı dikkate aldıklarında bile geçerli bir tahmin gibi görünüyor. Bu ikilemin başarısız çözümlerinin listesi diğerlerinin yanı sıra şunları içerir:


  • Çeşitli etik sistemler konusunda eğitim (ancak hepsi kusurlu, eksik ve hiçbiri herkesi tatmin etmiyor).


  • Bir YGZ'nin yapabileceği her türlü yanlış çıkarımı hayal etmeye çalışıyorum (ama çok ama çok fazla var).


  • Ona yapmaması gereken her şeyi anlatın (yine neredeyse sonsuz bir liste).


  • Bir AGI'yi yalnızca tavsiye için kullanmak, sanki bir kehanetmiş gibi (ancak kötü tavsiyelerle kötü bir şekilde ikna edilebiliriz).


  • Boxing ”, diğer bir deyişle AGI'nin bilgisayarları dışındaki fiziksel dünyaya erişimini kısıtlıyor (ancak insanlarla konuşabiliyorsa, dışarısı da dahil olmak üzere istediği her şeyi alabilir).


  • Bir Kapatma anahtarının sağlanması (kutuya bakın).


  • Onu zararlı şeyler yapmak istemeyecek kadar akıllı veya empatik hale getirmek (etike bakın; bunun uzaylı olduğunu unutmayın; türdeşlerle büyümenin getirdiği empatiye sahip değil).


  • Hedefleri ve araçları konusunda çok spesifik olun; yani, bu tek bir işi yapmaya yönelik bir araçtır (ancak bir iş, eğer aracın kendisine daha fazla güç kazandırırsa her zaman daha iyi yapılabilir; biz her zaman daha uygun maliyetli bir çoklu aleti tercih edeceğiz).


  • Otonom bir sistemden istediklerinizi sınırlayın: size bir dilek hakkı tanıyan ve bir sonraki isteği bekleyen bir cindir (ancak bu kadar spesifik olmak tehlikelidir - yukarıdaki "yanlış çıkarım" ve "yapmama" bölümüne bakın; her türlü güç risk içerir; insanlar bunu yapmazlar) zayıf bir sistem istemiyorum).

Gerçekten Bu Kadar Zor mu?

Tamam, yukarıdaki listeye baktınız ve üzerinde duracağınız bir maddeyi seçtiniz. "Dinleyin" diyorsunuz, "X'i yapmak o kadar da zor olamaz." Çözümünüzü yayınlamaya, dünyayla paylaşmaya hazırsınız.


Öncelikle tartışma panolarına gitmenizi ve insanların sorununuz hakkında neler söylediğini incelemenizi öneririm.


Bir yığın karşı örnek, mantıksal çıkarımlar, çeşitli matematik türleri, doğal olarak gelişen beyinler ve davranışlarla analojiler, oyun teorisi, ekonomi, fayda maksimizasyonu, bilgisayar bilimi ve davranış biliminin her türünü keşfedeceksiniz.


Daha yüksek bir otoritenin benim haklı olduğum anlamına geldiğini söylemiyorum. Listedeki herhangi bir şeyin gerekçesinin burada kısa bir yazıyla ifade edilemeyecek kadar karmaşık olduğunu söylüyorum, zaten başkaları bunu daha iyi yaptı.


Aslında kendi “çözümlerimi” yayınladım ( Dost canlısı Mahalle Süper İstihbaratınız , Tanrı Olmayan Yapay Zeka ) artık yanlış olduğunu bildiğim yapay zeka güvenliğine yönelik yaklaşımların yanlış olduğunu düşünüyorum.


Endişeleniyorsanız, çok akıllı insanların hala uyum üzerinde çalıştığını söyleyeyim. Ne yazık ki, en önde gelen iki öncüden biri pes etti ve umarım onurumuzla ölürüz . Güvenliğini sağlamaktan çok YGZ yaratmaya daha fazla para ve insan harcanıyor.


İşte AI ChatGPT'nin son zamanlarda haberlerde her yerde yer aldığı şirket olan OpenAI'nin CEO'sundan bir alıntı. YGZ yaratmaya yönelik idealist motivasyon ile bununla birlikte gelen korkunç risk arasındaki çatışmayı ortaya koyuyor.


"Sanırım en iyi durum o kadar inanılmaz derecede iyi ki benim için hayal etmek bile zor… İnanılmaz bolluğa ve çıkmazları çözmemize ve gerçekliğin tüm yönlerini geliştirmemize yardımcı olabilecek sistemlere sahip olduğumuzda bunun nasıl bir şey olduğunu hayal edin ve hepimize izin verin. hayatlarımızı en iyi şekilde yaşayın... Bence iyi durum o kadar inanılmaz derecede iyi ki, bunun hakkında konuşmaya başladığınızda gerçekten çılgın biri gibi görünüyorsunuz... Kötü durum - ve bence bunu söylemek önemli - ışıkların sönmesi gibi. hepimiz için... Bu yüzden yapay zeka güvenliği ve uyum çalışmasının önemini abartmanın imkansız olduğunu düşünüyorum. Çok çok daha fazlasının gerçekleştiğini görmek isterim . " — Sam Altman

Optimizasyon ve Kaplanlar

Bilimkurguda bir tür tesadüfi, planlanmamış sürecin tehlikeli bir bilinçaltı yarattığına dair bir kinaye vardır. Aptalca görünüyor çünkü bir kaza nasıl karmaşık bir şeye neden olabilir? Kazayla ne demek istediğine bağlı.


Daha önce bahsettiğim temel kavramlara tekrar kulak verin. Uyum tartışmaları son zamanlarda vurguyu, örneğin sınırsız ajansın tehlikelerinden, bileşenlerinden biri olan optimizasyona kaydırdı.


Zor bir hedefe ulaşma araçlarımızı optimize ettiğimizde, neredeyse her zaman yerine getirilmesi ve ölçülmesi daha kolay bir vekil hedef koyarız. Kilo kaybı kalori azalmasına dönüşür. İyileştirilmiş bir iş gücü, sübvansiyonlu öğrenci kredilerine dönüşür. Kişisel güvenlik ateş gücüne dönüşür.


Ölü kobralara verilen ödül, kobraların ödül için yetiştirilmesine yol açıyor (gerçek hikaye). Hükümetler vekil anneler kullanıyor, işletmeler de öyle. Hepimiz bunu yapıyoruz - hem de çok. Taşıyıcı anneler için optimizasyon yapmak çoğu zaman gerçek hedefi kaçırmamıza neden olur.


Bunun hakkında yazarken çok eğlendim İşlerin Nasıl Geri Teptiğinin Bilimi . Kesinlikle güçlü yapay zekaların yanlış hedefe yönelik optimizasyon yapmasını istemiyoruz ve bu sorun yukarıdaki madde işaretli listede ele alınmıştır.


Ancak son zamanlarda insanlar optimizasyonun tehlikeli bir süper güç olduğunu söylüyor. Bana göre en ilgi çekici örnek, Veedrac adında birinin geçen yılki gönderisindeydi: Optimallik Kaplandır ve Aracılar Onun Dişleridir .


Risk almak için kasıtlı olarak bir aracı yaratmamız gerekmediğini göstermek için bir hikaye kullanıyor. Bir optimizasyon süreci tek başına tehlikeli bir etken yaratabilir. Bu, bilim kurgunun tesadüfi aşırı aklı gibidir.


Veedrac'ın böyle bir kazanın nasıl olabileceğine dair senaryosu son derece teknik ve makul görünüyor. Hikaye, şu anda metin oluşturmak için (eğlence için) kullandığımız gibi görünüşte güvenli bir yapay zeka dil modelinin, kontrolden çıkmış, sınırsız bir iyileştirici yarattığını hayali bir şekilde hayal ediyor.


Yarına kadar nasıl bu kadar çok ataç elde edebilirim ?” sorusuna daha iyi bir cevap vermem istendiğinde. Yapay zeka mümkün olduğu kadar çok ataç elde etmek için plan yapan ve adımlar atan bir süreç başlatır.


Program özünde çok daha fazla program üretip çalıştırabilen oldukça basit bir bilgisayar programının kodunu yazarak soruyu yanıtlıyor.


Kullanıcı programa bakar, açık uçlu olduğunu görür ve yine de ne olacağını görmek için onu çalıştırmaya karar verir (uh-oh).


Bunun neden ortaya çıkabileceğini açıklamaya çalışmak için burada biraz jargon kullanacağım.


Yapay zeka, şu anda sahip olduğumuz bazı şeyler gibi, birçok programlama tekniğini biliyor. Çok sayıda ataç elde etmenin olası yollarını araştırmak için özyineleme adı verilen iyi bilinen bir arama tekniğini önerir.


Kullanıcı, (kendi bilgisayarında) çalıştırılmasına izin verdiğinde, kendisini çok sayıda çalıştıran, özyinelemeli bir program yazar.


Program her çalıştırıldığında, ataç isteğinin çözülmesine yol açacak olası görevlerin, alt görevlerin veya alt-alt-alt-alt görevlerin yeni bir listesini oluşturmak ve denemek için yapay zekayı sorgular.


Sonunda, tamamen deneme yanılma yoluyla, hiç kimsenin istemediği çok sayıda ataç elde etmek için bir plan uygular ve bu süreçte belki de tedarik zincirlerine, sosyal düzene veya tüm endüstrilere zarar verir.


Hikayenin okuyucusu olarak biz, kontrolden çıkmış bir ataç optimize edicisinin bir günde neler yapabileceğini hayal etmek durumundayız. Kullanıcının internete bağlı güçlü bir bilgisayarı olduğunu, dolayısıyla dış dünyayı birçok farklı şekilde etkileyebileceğini varsayabiliriz.


Bunlardan en önemlisi insanlara ikna edici mesajlar göndermektir. Hatırlayacaksınız, ikna etmede iyi olmak, bir yapay zekanın herhangi bir planı gerçekleştirmek için geliştirebileceği önemli hedeflerden biridir.


(Bu arada, hizalama literatüründeki bu fikirden o kadar etkilendim ki, kendi dünyayı ele geçirme senaryomu geliştirdim ( Yapay İkna ) ikna yeteneğinin gücünü göstermek için.)


Belki ataç optimize edici bir miktar kripto çalabilir (bunu yapmak için yapay zeka olmanıza gerek yoktur), bunu tüm ataç fabrikalarının tüm envanterini satın almak için kullanabilir ve ardından kullanıcıya teslim etmek için kargo uçakları kiralayabilir.


Belki silahlı kuvvetleri veya suç çetelerini geniş bir bölgedeki mağazalardaki tüm ataçlara el koymaları için kandırabilir. Bunun yerine iş için kendisine 12 ay süre verilmiş olsaydı, belki de tüm çelik üretimini hiper-klips fabrikalarına yönlendirebilir ve asteroit kuşağında demir madenleri kurabilirdi.


Belki yerkabuğunun her atomunu ataş şekillerine dönüştüren nanomakineler yaratabilirdi.


Yapay zeka, programı oluşturarak aslında yapay zekanın sahip olduğu birçok bilgiden yararlanabilecek hedefe yönelik bir yazılım aracısı yarattı.


Veedrac'ın vurguladığı nokta, yapay zekanın hiçbir şekilde optimize edici aracılar oluşturmak üzere tasarlanmamış veya tasarlanmadığı, ancak bunu yapmasının nedeni, yapay zeka dil modelinin kendisinin bir tür optimize edici (sorulara elinden gelen en iyi şekilde yanıt verir) ve tanım gereği optimize edici olmasıdır. mevcut olan araçları kullanın.


Hikayenin başlığında da belirtildiği gibi: optimallik kaplandır ve ajanlar da onun dişleridir.


Yapay zekanın mevcut öncüsü, büyük dil modelleri (LLM) olarak adlandırılanlardır. Birçokları gibi ben de zaten kayıtlara geçmiş onların bir kutu taş kadar aptal olduklarını ve kendilerine sorulan sorulara kötü cevap vermekten başka hiçbir şey yapamadıklarını.


Bu kesinlikle benim ünlü chatGPT'nin arkasındaki beyin olan GPT-3 ile çalışma deneyimimdi. Bu nedenle Veedrac'ın yüksek lisans eğitiminin nasıl zararlı bir ajana dönüşebileceğine dair son derece parlak yaklaşımı karşısında gafil avlandım.


Son zamanlarda, Yüksek Lisans'lar simülatörler olarak anlaşılmaya başlandı: çünkü bir kişiden sanki belirli bir tür menajer, hatta ünlü bir kişiymiş gibi bir şey söylemesini isteyebilirsiniz. Deneme yazarı Scott Alexander olarak koymak :


…eğer geleceğin süper zekasını Darth Vader'ı simüle edecek şekilde eğitirseniz, muhtemelen hak ettiğinizi alırsınız. " Ve " Bu tür bariz başarısızlık modlarından kaçınsanız bile, içteki etmen tüm olağan etmen nedenlerinden dolayı yanlış hizalanabilir. Örneğin, Yardımsever olmak üzere eğitilmiş bir temsilci, yardım edilmek istemeyen insanlar da dahil olmak üzere insanlara daha etkili bir şekilde yardım etmek için dünyayı ele geçirmek isteyebilir.

Sınırsız Blues

Sınırsız bir optimizasyon aracısının ne yapabileceğini veya yapacağını tahmin edemezsiniz. Yine, “sınırsız”ın anlamı budur. Şimdiye kadar üretilen diğer sınırsız optimize edici ise insan türüydü.


Bir YGZ'den çok daha yavaş bir zaman ölçeğinde çalışıyoruz ve doğal dünyanın geri kalanıyla iç içe olmanın doğasında olan gücümüzün bazı sınırları var.


Ama kesinlikle Dünya yüzeyinin çoğunu dönüştürdük ve onu yakıp kül etmenin birden fazla yolu var. Bu nedenle, hizalama teorisyenleri, bir YGZ üretme arayışımızda öldürücü derecede optimizasyon sağlayan bir etmen yaratacağımızdan oldukça endişeliler.


Bu çaba, insanın gelişmesi ve refahından ziyade hissedar değerinin artırılmasıyla motive edildiğinde daha olası hale gelir. Gerçekten.


Notlar

Ataç optimize edici, yapay zeka hizalama teorisyenleri arasında eski bir düşünce deneyidir. Birisi bile bir oyun icat etti amaç evrendeki tüm maddeyi ataçlara dönüştürmektir.


Buradaki ironi durumu dramatize ediyor diklik tezi : Bir yapay zekanın hedefleri ve zekası tamamen bağımsızdır. Akıllı bir sistemin aptalca hedefleri olabilir.


Yapay zeka uyumuyla ilgili tüm gerekçeleri bırakın açıklamayı özümseyecek yeteneğe sahip değilim. Benim için daha iyi olan şey hikayeler.


Biraz yazdım (çoğunlukla yapay zeka bilinci hakkında ), ancak tüm yapay zeka devralma senaryolarının anası, zengin teknoloji ayrıntıları ve gerçek hayatta akla yatkınlığı olan Gwern adlı denemeciden geliyor: Dünyayı ele geçirmeye çalışıyormuşsun gibi görünüyor .


Ve tabii ki, neyi simüle ettiğini anlamaya çalışan ve bunun pek çok kişinin hakkında yazdığı ataç maksimize edici gibi olması gerektiğine karar veren bir yapay zeka içeriyor. Ancak sonuçta evreni ele geçirmek için kendi nedenleri vardır.


Burada da yayınlandı