paint-brush
Tekillik Yüzeyini Kazımak: Yüksek Lisans'ın Dünü, Bugünü ve Gizemli Geleceğiile@ivanilin
1,736 okumalar
1,736 okumalar

Tekillik Yüzeyini Kazımak: Yüksek Lisans'ın Dünü, Bugünü ve Gizemli Geleceği

ile Ivan Ilin14m2023/05/16
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

Bu, makine öğrenimi teknolojisinin mevcut durumuna ilişkin bazı hafta sonu düşüncelerinin yer aldığı ve özellikle yüksek lisans, yani yapay zekaya odaklanan bir makaledir. Bu kapsamlı bir sektör raporu değil ve öyle olması da düşünülmüyordu ancak hem Makine Öğrenimi Mühendisleri hem de mevcut yapay zeka yükselişiyle ilgilenen daha geniş bir kitle için ilginç bir okuma olacağını umuyorum. Hikayenin üç bölümü var:

People Mentioned

Mention Thumbnail
featured image - Tekillik Yüzeyini Kazımak: Yüksek Lisans'ın Dünü, Bugünü ve Gizemli Geleceği
Ivan Ilin HackerNoon profile picture

Bu, makine öğrenimi teknolojisinin mevcut durumu hakkında bazı hafta sonu düşüncelerinin yer aldığı ve özellikle yüksek lisans, yani yapay zeka ve tarihteki mevcut noktamıza odaklanan bir makaledir.


Bu heyecan verici tekillik olayına geçmeden önce, bunun daha kişisel ve daha az resmi bir yazı olduğunu, Doğal Dil Anlayışının evrimi hakkındaki bakış açımı paylaştığımı ve bu bağlamda önemli görünen bazı fikirlerin altını çizdiğimi belirtmek isterim. . Bu kapsamlı bir sektör raporu değil ve öyle olması da düşünülmüyordu ancak hem Makine Öğrenimi Mühendisleri hem de mevcut yapay zeka yükselişiyle ilgilenen daha geniş bir kitle için ilginç bir okuma olacağını umuyorum.


Hikayenin üç bölümü var:


  • Tarih kısmı bize, çok katmanlı bir algılayıcıdan şu andaki YGZ durumumuza sadece on iki yılda nasıl ulaştığımızı kısaca hatırlatıyor.


  • Günümüz bölümü, LLM'lerin en son başarılarına ve mevcut endüstri trendlerine odaklanmaktadır. Bağlamın derinliklerine iniyorsanız ve yeni fikirler arıyorsanız o kısma geçin.


  • Gizemli kısım, mevcut YGZ aşamasını nelerin takip edebileceğine dair bazı fikirler sunuyor.


Tarih

Yani, her şeyden önce, Makine Öğrenimi bir süredir, Tomas Mikolov'un word2vec yayınından mı yoksa Andrew Ng'nin Coursera'daki Makine Öğrenimi kursundan mı saydığınıza bağlı olarak yaklaşık on yıl veya on iki yılda bir ortalıkta dolaşıyor. Kaggle 2010'da kuruldu ve Fei-Fei Li, Imagenet'i 2009'da topladı. Çok da uzun zaman önce, 30 yaşın üzerindeyseniz muhtemelen bunu kabul edersiniz.


Bazıları makine öğreniminin çok daha uzun süredir var olduğunu iddia edebilir, ancak ben şimdi saf araştırmadan değil, derin öğrenme algoritmalarının, diğer bir deyişle teknoloji ivmesinin endüstri tarafından benimsenmesinden bahsediyorum. Ve burada, scikilearn'de kapsanan klasik makine öğrenimi algoritmaları, tüm regresyon, kümeleme ve zaman serisi tahmini gibi şeylere dokunmuyoruz. Sessizce önemli işlerini yapıyorlar ama insanlar onlara yapay zeka demiyor, ortalıkta abartı yok, biliyorsunuz.


Bu yapay zeka baharı neden 12 yıl önce gerçekleşti? Derin öğrenme (hataların geriye yayılmasıyla çok katmanlı bir sinir ağının eğitilmesi) nihayet ortalama bir GPU'da uygulanabilir hale geldi. 2010 yılında, en basit sinir ağı mimarisi olan çok katmanlı bir algılayıcı, el yazısı rakam tanımada (ünlü MNIST veri kümesi) diğer algoritmaları geride bıraktı; bu sonuç Juergen Schmidhuber ve arkadaşları tarafından elde edildi .


2010 yılı civarındaki o noktadan bu yana teknoloji giderek daha sağlam hale geldi. Oyunun kurallarını değiştiren birkaç an yaşandı; Doğal Dil İşleme (NLP) dünyasına anlamsal anlayış getiren word2vec modelinin piyasaya sürülmesi, biraz sonra Tensorflow ve Keras derin öğrenme çerçevelerinin halka açık olarak piyasaya sürülmesi ve tabii ki, Halen bir SOTA sinir ağı mimarisi olan Transformer , 2017 yılında NLP dünyasının ötesine genişledi. Nedenmiş? Çünkü Transformer'ın dikkati vardır ve O(n2) karmaşıklığına sahip metinler gibi dizileri işleme yeteneğine sahiptir ve bu, tüm girdi dizisine bakmamızı sağlayan matris çarpım yaklaşımıyla sağlanır. Bana göre Transformer'ın başarısının ikinci nedeni, modelleri birlikte ve ayrı ayrı (sıradan diziye veya diziden vektöre) eğitmemize ve kullanmamıza olanak tanıyan esnek Kodlayıcı-Kod Çözücü mimarisidir .


OpenAI GPT ailesi modelleri (Transformer Kod Çözücü) , GPT-3 zaten oldukça insani metinler üretebildiğinden ve birkaç atışta ve bazı sıfır atışta öğrenme yeteneğine sahip olduğundan, teknoloji endüstrisinin ötesine geçerek biraz ses getirdi. Son kısım daha önemli, GPT-3 belgesinin adı bile "Dil Modelleri Birkaç Adımda Öğrenenler" olarak adlandırılıyor - Büyük Dil Modellerinin örneklerden hızlı bir şekilde öğrenme yeteneği ilk kez 2020'de OpenAI tarafından belirtildi.


Ama patlama!


ChatGPT'nin çıkışı daha önce hiç görmediğimiz bir heyecanla geldi ve sonunda kamuoyunun büyük ilgisini çekti. Ve şimdi GPT-4 bunun ötesine geçiyor.


Nedenmiş? Son 7 yıldır, sinir ağları iyi sonuçlar vermeye başladığından beri, AI dediğimiz şey aslında dar bir yapay zekaydı - modellerimiz bazı belirli görevleri çözmek için eğitilmişti - nesneleri tanımak, sınıflandırma yapmak veya aşağıdaki belirteçleri tahmin etmek sırayla. Ve insanlar yalnızca insan seviyesinde birçok görevi tamamlayabilen yapay bir genel zeka olan AGI'yi hayal ediyorlardı.


Günümüz

Yüksek Lisans'ın muhakeme yetenekleri oyunun kurallarını değiştiriyor

Aslında, talimat tabanlı Yüksek Lisans ayarlamalarında veya OpenAI'de dedikleri gibi, insan geri bildiriminden takviyeli öğrenmede ne oldu?
GPT-3.5+ modelleri nihayet sağlanan bilgiler üzerinden akıl yürütme yeteneğini öğrendi . Ve bu da bazı şeyleri değiştiriyor; önceden Yüksek Lisans'lar oldukça iyi bir istatistiksel papağana yakındı, ancak metin yerleştirme, vektör arama, sohbet robotları vb. gibi pek çok uygulama için hâlâ çok kullanışlıydı. Ancak talimata dayalı eğitimle, insanlardan etkili bir şekilde akıl yürütmeyi öğreniyorlar. .


Mantık tam olarak nedir?


Bazı mantıksal işlemler aracılığıyla sonuçlar çıkarmak için sağlanan bilgileri kullanma becerisi. A'nın B'ye ve B'nin C'ye bağlı olduğunu varsayalım, yani A, C'ye bağlı mı? GPT-4'ün resmi ürün sayfasında çok daha karmaşık bir akıl yürütme örneği bulunur. Modelin muhakeme yeteneği o kadar güçlü ve esnektir ki, yalnızca sağlanan bilgiyi değil, "ortak bilgiyi" veya "sağduyuyu" kullanarak belirli bir hedefe ulaşmak için izlenecek yapılandırılmış talimatlar veya mantıksal işlemler dizisini üretebilir. istemde.


Bu tür akıl yürütme yeteneklerine sahip Yüksek Lisans'lardan önce, akıl yürütme için iyi tasarlanmış diğer araç, varlıkların yüklemleri veya ilişkileri olarak varlıkları ve kenarları içeren düğümlere sahip bir bilgi grafiğiydi . Bu, açık akıl yürütme yetenekleri sağlayan bir bilgi depolama biçimidir. Bir noktada, sorulan bilgiyi bulmak için diğer şeylerin yanı sıra bir bilgi grafiği kullanan bir soru cevaplama sistemi oluşturmaya dahil oldum - sadece amacı tespit etmeniz, grafikte bu tür ilişkilerin olup olmadığına bakmanız, kontrol etmeniz gerekiyordu. Bahsedilen belirli varlıklar ve eğer mevcutlarsa bu alt grafiği sorgulayın. Aslında bu işlem hattı, doğal dildeki sorgunun SPARQL sorgusuna çevrilmesini sağladı.


Artık bu gerçek bilgiyi, isteminizin bağlam kısmı olarak modele düz metin olarak sağlayabilirsiniz; model bunu sıfır atışta "öğrenecek" ve bunun üzerinde mantık yürütebilecektir. Vay, değil mi?


Ve grafikte yer alan varlık sayısı ve ilişki türüyle sınırlı değilsiniz. Ayrıca, makine öğrenimi modellerini insan bilişinden ayırmanın en zor kısmı olan, dünyamızın kavramlarına ve bunların ilişkilerine ilişkin genel anlayış olan "sağduyuya" sahipsiniz. Doğal dilde nasıl talimat verebildiğimizi bile fark etmedik ve çok açık açıklamalar olmadan doğru şekilde çalışmaya başladılar.


Akıl yürütme artı bilgi, zekanın iki önemli bileşenidir. Son 20 yıldır, Vikipedi, bilimsel yayınlar, hizmet açıklamaları, bloglar, milyarlarca kod satırı ve Stackoverflow yanıtları ve sosyal medyadaki milyarlarca görüş biçiminde neredeyse tüm insan bilgisini İnternet'e koyduk.
Artık bu bilgiyle mantık yürütebiliriz.



GPT-4 AGI'dir

Bu muhakeme yetenekleri , GPT4'teki resmi OpenAI teknoloji raporunda iyi bir şekilde gösterilmiştir:


GPT-4, bu profesyonel ve akademik sınavların çoğunda insan düzeyinde performans sergiler. Özellikle, Tekdüzen Çubuk Sınavının simüle edilmiş bir versiyonunu, sınava girenlerin ilk% 10'u arasında bir puanla geçiyor.


Bir dizi insan testinin GPT-4 sonuçlarına göre, AGI civarında bir yerdeyiz - OpenAI bu kelimeleri web sayfalarında bile kullanıyor ve farklı platformlardaki GPT-4 yeteneklerinin derinlemesine bir incelemesini içeren 150'den fazla sayfalık yeni bir Microsoft makalesi "Yapay Genel Zekanın Kıvılcımları: GPT-4 ile İlk Deneyler" adlı alan adları dikkatle ama açıkça AGI'nin burada olduğunu iddia ediyor:


GPT-4'ün yeteneklerinin genişliği ve derinliği göz önüne alındığında, bunun makul bir şekilde yapay genel zeka (AGI) sisteminin erken (ama henüz tamamlanmamış) bir versiyonu olarak görülebileceğine inanıyoruz.


ve sonra:


GPT-4'ün genel yeteneklerinin, geniş bir etki alanını kapsayan çok sayıda yeteneğin ve insan düzeyinde veya ötesinde geniş bir görev yelpazesindeki performansının birleşimi, GPT-4'ün önemli bir adım olduğunu rahatlıkla söyleyebiliriz. AGI'ye doğru.


Bu iddianın nedeni şu:

Tamamen bir dil modeli olmasına rağmen, GPT-4'ün bu ilk sürümü, soyutlama, kavrama, görme, kodlama, matematik, tıp, hukuk, insan güdülerini ve duygularını anlama ve Daha.


Ve çivilemek için:

Ancak ilk adım olarak bile GPT-4, makine zekası hakkında yaygın olarak kabul edilen önemli sayıda varsayıma meydan okuyor ve kaynakları ve mekanizmaları şu anda tam olarak ayırt edilmesi zor olan yeni ortaya çıkan davranışlar ve yetenekler sergiliyor <…>. Bu makaleyi hazırlamaktaki temel amacımız, teknolojik bir sıçramanın başarıldığı yönündeki değerlendirmemizi desteklemek amacıyla GPT-4'ün yetenekleri ve sınırlamalarına ilişkin araştırmamızı paylaşmaktır. GPT-4'ün zekasının bilgisayar bilimi ve ötesinde gerçek bir paradigma değişikliğine işaret ettiğine inanıyoruz.



Bu gürültülü iddiaların arkasında, söz konusu modellerin nasıl çalıştığına dair çok ilginç bir analiz ve farklı alanlardan çeşitli önemsiz olmayan görevler üzerinde GPT-4 ile ChatGPT sonuçlarının kapsamlı bir karşılaştırması olduğundan, bu çalışmaya biraz zaman ayırmanızı şiddetle tavsiye ediyorum.


Yüksek Lisans artı arama

Eğitim sırasında model tarafından öğrenilmesi beklenmeyen bazı spesifik bilgiler üzerinden sonuç çıkarmak için LLM'nin muhakeme yeteneklerini uygulamamız gerekirse , verilerinizi vektör yerleştirmeleri olarak saklıyor olsanız da, her türlü arama - geri getirme artı sıralama mekanizmasını kullanabiliriz. Faiss gibi bir YSA dizini veya Elastic gibi eski tarz bir tam metin dizini - ve ardından bu arama sonuçlarını bir bağlam olarak bir LLM'ye besleyin ve onu bir komut istemine enjekte edin. Bing 2.0 ve Bard (artık PaLM2 tarafından desteklenmektedir) aramalarının artık yaptığı da budur.


Bu arama + LLM çağrı sistemini, Reader modelinin yerini ChatGPT'nin aldığı DPR mimarisi ve tam metin Elastik arama ile uyguladım, her iki durumda da sistemin genel kalitesi, sahip olduğunuz verilerin kalitesine bağlıdır. Dizininiz — spesifik ve eksiksizse, standart ChatGPT'nin sağladığı yanıtlardan daha iyi yanıtlara güvenebilirsiniz.


Hatta bazıları GPT çevresinde bir İsviçre bıçağı kütüphanesi oluşturmayı başardı, buna vektör veritabanı adını verdi ve bu konuda iyi bir tur attı - şapkam çıkıyor!
Ancak GPT modellerinin metinsel arayüzü nedeniyle, aşina olduğunuz herhangi bir araçla bunun etrafında her şeyi oluşturabilirsiniz, hiçbir adaptöre ihtiyaç duymazsınız.


Model analizi

Modeldeki daha ileri gelişmelere ipucu verebilecek sorulardan biri , bu büyük modellerin gerçekte nasıl öğrendiği ve bu etkileyici muhakeme yeteneklerinin model ağırlıklarında nerede depolandığıdır .


Bu hafta OpenAI , "Dil modelleri dil modellerindeki nöronları açıklayabilir" başlıklı bir makale ve LLM'lerin katmanlarını soyarak bu soruları yanıtlamayı amaçlayan açık kaynaklı bir proje yayınladı. Çalışma şekli - modelin sinir ağının bazı bilgi alanlarında sıklıkla etkinleştirilen bir kısmının aktivitesini gözlemlerler, ardından daha güçlü bir GPT-4 modeli, üzerinde çalışılan LLM'nin bu belirli kısmının veya bir nöronunun ne olduğuna ilişkin açıklamalarını yazar. sorumludur ve daha sonra orijinal LLM'nin çıktısını GPT-4 ile bir dizi ilgili metin dizisinde tahmin etmeye çalışırlar, bu da açıklamaların her birine bir puan verilmesiyle sonuçlanır.


Ancak bu tekniğin bazı dezavantajları vardır. Birincisi, yazarların belirttiği gibi, yöntemleri incelenen yaklaşık 300.000 nörondan yalnızca 1000 nöronuna iyi açıklamalar verdi.


İşte makale alıntısı:

Ancak hem GPT-4 tabanlı hem de insan yüklenici açıklamalarının mutlak anlamda hala düşük puan aldığını gördük. Nöronlara baktığımızda, tipik nöronun oldukça çok anlamlı göründüğünü de gördük. Bu, açıkladıklarımızı değiştirmemiz gerektiğini gösteriyor.


İkinci nokta ise bu tekniğin şu anda eğitim sürecinin nasıl geliştirilebileceğine dair bir fikir vermemesidir. Ancak modelin yorumlanabilirliği çalışması açısından iyi bir çabadır.


Belki incelenen nöronlar karşılıklı bağımlılıklarına dayalı olarak bazı kümeler halinde birleştirilirse ve bu kümeler farklı eğitim prosedürleri nedeniyle değiştirilebilecek bazı davranış kalıpları sergilerse, bu bize belirli model yeteneklerinin eğitim verileriyle nasıl ilişkilendirildiğine dair bir anlayış verebilir ve eğitim politikası. Bir bakıma bu kümelenme ve farklılaşma, beynin belirli becerilerden sorumlu farklı alanlara bölünmesine benzeyebilir. Bu bize, belirli bir yeni beceri kazanması için bir LLM'ye verimli bir şekilde ince ayar yapmanın nasıl yapılacağı konusunda fikir verebilir.


Temsilciler

Bir başka trend fikir de döngülü bir LLM ile otonom bir temsilci oluşturmaktır - Twitter , AutoGPT, AgentGPT, BabyAGI ve diğerleri gibi deneylerle doludur. Buradaki fikir, böyle bir aracı için bir hedef belirlemek ve ona diğer hizmetlerin API'leri gibi bazı harici araçlar sağlayarak, bir yineleme döngüsü veya zincirleme modeller yoluyla istenen sonucu sunabilmesidir.


Geçen hafta Huggingface, Agents'ı ünlü Transformers kütüphanesinde şu amaçlarla yayınladı:

"OpenAssistant, StarCoder, OpenAI ve daha fazlası gibi LLM'leri kullanarak GenerativeAI uygulamalarını ve otonom aracıları kolayca oluşturun". (c) Philip Schmid


Kitaplık, karmaşık sorguları doğal dilde yanıtlayabilen ve çok modlu verileri (metin, resimler, video, ses) destekleyebilen zincir modeller ve API'ler için bir arayüz sağlar. Bu durumda istem, aracının tanımını, bir takım araçları (çoğunlukla diğer bazı dar durumlu sinir ağları), bazı örnekleri ve bir görevi içerir. Aracılar, mühendis olmayanlar için model kullanımını kolaylaştırabilir ancak aynı zamanda Yüksek Lisans'ların üzerine daha karmaşık bir sistem oluşturmak için de iyi bir başlangıçtır. Ve bu arada, burada da bildiğinizden farklı bir İnternet türü olan Doğal Dil API'si var.


BTW, Twitter bugünlerde yapay zeka konusunda gerçekten çılgına dönüyor, herkes LLM modellerinin üzerine bir şeyler inşa ediyor ve bunu dünyaya gösteriyor - sektörde hiç bu kadar coşku görmemiştim. Neler olduğunu araştırmak istiyorsanız tavşan deliği dalışına Andrew Karpathy'nin son tweet'iyle başlamanızı tavsiye ederim.


Yardımcı pilotların kodlanması

Github yardımcı pilotuna güç veren Codex bir süredir ortalıkta dolaşıyor ve birkaç gün önce bir Colab Pro abonesi olarak Google'dan Haziran ayında bunu yapacaklarını söyleyen bir mektup aldım (mektuba atıfta bulunarak)


Colab'a yavaş yavaş AI programlama özellikleri eklemeye başlayın İlk görünenler arasında:

  • kodun tamamlanması için tek ve çok satırlı ipuçları;
  • Google modellerine kod oluşturma istekleri gönderip bunu bir not defterine yapıştırmanıza olanak tanıyan doğal dil kodu oluşturma.


Bu arada, geçen hafta Google, PaLM 2 model ailesini duyurdu; bunların arasında Google'ın kodlama ve hata ayıklamaya yönelik özel modeli Codey de var ve bu duyurulan özellikleri muhtemelen güçlendirecek.


Bu bölümü sonuçlandırmak için, 2016 civarında CV yerine NLP'yi kişisel tercihimin , dilin insanların bilgi aktarmanın evrensel ve nihai yolu olması nedeniyle yapıldığını söylemek isterim. Hatta dilimizdeki kavramlarla düşünüyoruz, dolayısıyla sistem kendimizi ve etrafımızdaki dünyayı tanımlayacak kadar karmaşık. Bu da insana benzeyen, hatta onu aşan muhakeme yetenekleri ve bilince sahip, dil odaklı bir sistem yaratma olasılığını beraberinde getiriyor. Yaklaşık altı ay önce bu gerçek mantığın yüzeyini kazımıştık. Nerede olduğumuzu ve neyin takip edeceğini hayal edin .


Gizem

Herhangi bir nedenle waitbutwhy blogunun yazarı Tim Urban'a aşina değilseniz, AGI'deki 2015 tarihli gönderisini okuyun - sadece 7 yıl önce, ortalıkta LLM'lerin olmadığı ve Transformer'ın olmadığı geçmişten bakıldığında bunun nasıl göründüğüne bir bakın modeller de. 7 yıl önce nerede olduğumuzu hatırlatmak için burada onun yazısının birkaç satırını alıntılayacağım.


Satrançta her insanı yenebilecek yapay zeka mı yapacaksınız? Tamamlamak. Altı yaşındaki bir çocuğun resimli kitabından bir paragraf okuyabilen ve sadece kelimeleri tanımakla kalmayıp anlamlarını da anlayabilen bir çocuk yapmak ister misiniz? Google şu anda bunu yapmaya milyarlarca dolar harcıyor.


Ancak YGZ'ye ulaştıktan sonra işlerin çok daha hızlı ilerlemeye başlayacağına söz veriyor. Bunun nedeni Ray Kurzweil tarafından formüle edilen hızlandırılmış getiriler yasasıdır:


Ray Kurzweil insanlık tarihinin Hızlanan Geri Dönüşler Yasasını çağırıyor. Bunun nedeni, daha gelişmiş toplumların, daha az gelişmiş toplumlara göre daha hızlı ilerleme yeteneğine sahip olmasıdır; çünkü onlar daha gelişmiştir.


Bu yasayı mevcut Yüksek Lisans'lara uyguladığımızda daha da ileri gitmek ve internette kayıtlı tüm verileri öğrenme ve akıl yürütme yeteneğinin bu insanüstü hafızayı insan düzeyindeki akıl yürütme düzeyine getireceğini ve yakında etraftaki en zeki insanların akıllı zeka tarafından geride bırakılacağını söylemek kolaydır. Bu makine, satranç şampiyonu Kasparov'un 1997'de Deep Blue bilgisayar tarafından mağlup edilmesiyle aynı şekilde.


Bu bizi Yapay Süper Zeka'ya (ASI) götürecektir ancak bunun nasıl göründüğünü henüz bilmiyoruz. GPT-4'ün insan geri bildirimli öğrenimi yalnızca insan düzeyinde akıl yürütme sağladığından, onu eğitmek için belki başka bir geri bildirim döngüsüne ihtiyacımız olabilir. Daha iyi modellerin daha zayıf olanları öğretmesi kuvvetle muhtemeldir ve bu yinelenen bir süreç olacaktır.**Sadece spekülasyon yapıyorum, göreceğiz.

Tim'in YGZ ile ilgili yazısının ikinci bölümünde asıl ana hatlarıyla belirttiği şey, bu hızlandırılmış getiri yasası nedeniyle, sistemlerimizin YGZ'yi aştığı noktayı bile fark edemeyebileceğimiz ve o zaman bazı şeylerin bizim anlayışımızın biraz dışında olacağıdır.


Şimdilik, teknoloji alanında çalışan insanların yalnızca küçük bir yüzdesi, ilerlemenin gerçek hızını ve eğitime dayalı Yüksek Lisans eğitiminin şaşırtıcı potansiyelini anlıyor. Geoffrey Hinton da bunlardan biri; iş piyasası baskısı, sahte içerik üretimi ve kötü niyetli kullanım gibi risklerden açıkça söz ediyor. Daha da önemli bulduğum şey, karmaşık becerileri sıfır adımla öğrenebilen mevcut sistemlerin , insanlardan daha iyi bir öğrenme algoritmasına sahip olabileceğine işaret etmesidir.


Modern LLM'lerle ilgili endişe, pek çok görevde büyük bir avantaj sağlamalarına rağmen, bu modellerle çalışma (ön eğitim, ince ayar yapma, anlamlı yönlendirme yapma veya bunları dijital ürünlere dahil etme) becerilerinin daha da geliştirilmesinden kaynaklanmaktadır. hem eğitim/kullanım maliyetleri hem de beceriler açısından toplum genelinde açıkça eşitsizdir. Twitter'dan veya huggingface topluluğundan bazı kişiler, artık OpenAI hegemonyasına alternatif olarak oldukça yetenekli açık kaynak yüksek öğrenimlerine sahip olduğumuzu iddia edebilir, ancak yine de trendi takip ediyorlar ve daha az güçlüler, ayrıca başa çıkmak için belirli becerilere ihtiyaç duyuyorlar. OpenAI modelleri bu kadar başarılı olsa da Microsoft ve Google, onları durdurmak için bu araştırmaya daha da fazla yatırım yapacak. Ah, Meta da, eğer sonunda Metaverse'nin gitmesine izin verirlerse.


Günümüzde en çok talep edilen becerilerden biri kod yazmaktır; yazılım mühendisliği son 20 yıldır teknoloji sahnesine ve maaşlara hakim oldu. Kodlama yardımcı pilotlarının mevcut durumu göz önüne alındığında, ortak kodun büyük bir kısmı yakında üretilecek veya verimli bir şekilde getirilip uyarlanacak gibi görünüyor; bu da kullanıcı için aynı şekilde görünecek, geliştiricilere çok fazla zaman kazandıracak ve belki de biraz zaman alacaktır. piyasanın dışında iş fırsatları.


AGI hakkındaki bu çok güzel gönderide ve bunun ötesinde , AGI'nin otonom olarak kendini geliştirme yeteneğine sahip olacağı gibi görünen başka bir fikir daha var. Şimdilik vanilya Yüksek Lisans'ları hala özerk temsilciler değil ve hiçbir şekilde herhangi bir irade içermiyor; insanları korkutan iki fikir. Her ihtimale karşı. Modelin takviyeli öğrenmeyi içeren eğitim sürecini, kullanılan RL algoritmasının OpenAI'nin Yakınsal Politika Optimizasyonu olduğu ve son modelin, Transformer'ın belirteç dizilerini tahmin eden bir Kod Çözücü parçası olduğu insan geri bildirimiyle karıştırmayın.


Muhtemelen alıntı yaptığım birkaç makalenin geçen hafta yayınlandığını fark etmişsinizdir - eminim ki önümüzdeki haftalar, bu yazıda ele almayı dilediğim yeni yayınlar ve fikirler getirecektir, ancak bu, zamanın işaretidir.


Görünüşe göre yeni yazılım çağına hızla giriyoruz ve tekillik noktasına doğru birkaç adım attık , çünkü makine öğrenimi endüstrisindeki yenilikler zaten benzeri görülmemiş bir hızda gerçekleşiyor - geçen yıl ayda birkaç kez gördüğümüz gibi sadece birkaç büyük sürüm. Sürüş keyfi!


Not: Bir sonraki patlama, Musk'ın bizi Neuralink aracılığıyla Yüksek Lisans'lara bağlaması olacaktır.

PPS . Bu metni yazmak için tek bir OpenAI API çağrısı yapılmadı. Bahse girerim.