Claude model serisinin arkasındaki şirket olan Anthropic, Claude 3.5 Sonnet'i piyasaya sürdü. Bu, hepimizin akıl yürütme, özetleme vb. gibi çoğu görev için varsayılan en iyi model olarak GPT-4o'yu kabul ettiğimiz bir zamanda geliyor. Anthropic, kendi modelinin zeka için yeni "endüstri standardını" belirlediğini cesur bir şekilde iddia ediyor.
Ayrıca, eğer denemek isterseniz Claude.ai'de ücretsiz olarak mevcut. Biz de heyecanlandık ve modeli test edip GPT-4o ile karşılaştırmak istedik. Bu makale, Claude 3.5 ile yayımlanan özelliklere genel bir bakışla başlıyor ve onu kod oluşturmanın yanı sıra mantıksal ve matematiksel akıl yürütme görevlerinde GPT-4o'ya göre test ediyor.
Model, çoğu görevde GPT-4o'yu geride bıraktığını iddia eden üç ana özellik veya yenilikle birlikte geliyor.
Özellikleri daha derinlemesine inceleyelim ve bunları uzun süredir hüküm süren Yüksek Lisans Kralı GPT-4o ile karşılaştıralım.
Başlamak için Claude.ai web sitesinde oturum açmamız ve eserler özelliğini etkinleştirmemiz gerekiyor. Deneysel bir özellik olduğu için etkinleştirmemiz gerekiyor. Aşağıda gösterildiği gibi özellik önizlemesine girmeli ve Artifact'leri buradan etkinleştirmeliyiz.
Etkinleştirildiğinde model, kodlama veya animasyon gibi ihtiyaç duyulan görevler için yan tarafta özel bir pencere gösterecektir.
Geliştirilmiş görsel muhakeme yeteneğini test etmek için aşağıdaki iki grafiği Claude Sonnet modeline yükleyip "Bu verilerden ne anlayabilirsiniz?" sorusunu sorduk.
Görsel muhakemeyi test etmek için görsel olarak grafikler
Claude Sonnet'in yanıtı şaşırtıcıydı. Derin öğrenme sürecini tam olarak özetledi: "Bu veriler, derin öğrenme mimarilerinde ve model ölçeklendirmede hızlı ilerlemeyi gösteriyor, daha büyük, daha güçlü modellere doğru bir eğilim gösteriyor". GPT-4o'dan da benzer bir yanıt aldık. Hangisinin daha iyi olduğunu daha iyi anlamak için her iki modeli de dört görevde sistematik olarak karşılaştırmaya başladık: kodlama, kullanıcı arayüzü ile kodlama, mantıksal akıl yürütme ve Matematik akıl yürütme.
Artık bir genel bakış gördüğümüze göre, daha derine inelim ve modeli bir incelemeye alalım. Kod oluşturmayı, mantıksal akıl yürütmeyi ve matematiksel akıl yürütmeyi test edelim.
Kod üretimi için her iki modelden de ünlü Sudoku oyununu oynamak için kod üretmelerini isteyeceğim. Her iki modele de tam olarak "sudoku oyununu oynamak için python kodu yazın" komutunu verdim. Bu istemle hem Claude 3.5 hem de GPT-4o, yalnızca komut isteminden etkileşim kurabileceğimiz bir kod üretir. UI kodunun nasıl oluşturulacağını belirtmediğimiz için bu beklenen bir durumdur. Bazı ilk gözlemler:
Komut istemiyle etkileşimde bulunmak herkesin harcı olmadığından modellerin kullanıcı arayüzü ile kod üretmesini istedim. Bunun için komut istemini “sudoku oyunu oynamak için kod yaz” olarak değiştirdim. Bu sefer, yalnızca arka uç kodunu üretmesini isteyeceğini düşündüğüm için komut isteminden "python"u kaldırdım. Beklendiği gibi Claude 3.5 bu sefer aşağıdaki gibi işlevsel bir kullanıcı arayüzü üretti. Kullanıcı arayüzü tamamen sağlam ve çekici olmasa da işlevseldi.
Ancak GPT-4o ne yazık ki benzer bir kullanıcı arayüzü üretmedi. Hala etkileşimli bir komut istemiyle kod üretiyordu.
İlk bulmaca için aşağıdaki soruyu sordum:
Jane, Jill'i ziyarete gitti. Jill, Jane'in tek kocasının kayınvalidesinin tek kocasının tek kızının tek kızıdır. Jane'in Jill ile ilişkisi nedir?
Her iki model de bir dizi akıl yürütme adımıyla ortaya çıktı ve soruyu doğru yanıtladı. Yani bu durumda Claude 3.5 ile GPT-4o arasında bir bağ olması gerekiyor.
İkinci bulmaca için aşağıdaki soruyu sordum:
Kelimelerden hangisi diğerlerine en az benziyor? Farkın sesli harflerle, ünsüz harflerle veya hecelerle hiçbir ilgisi yoktur. DAHA FAZLA, ÇİFTLER, GRAVÜRLER, FERMUAR\
Bunun için her iki model de farklı mantıksal akıl yürütme adımları uygulayarak farklı yanıtlar ortaya çıkarmıştır. Claude, fermuarın hem isim hem de fiil olarak işlev görebilen tek kelime olduğunu düşündü. Ancak diğerleri ya sadece isim ya da sıfattır. Yani cevap olarak ZIPPER'ı belirledi. Öte yandan GPT-4o, bunun somut bir nesne ya da belirli bir insan tipi olmadığına dair DAHA FAZLA gerekçe belirledi.
Bütün bunlar, istemi daha belirgin hale getirmemiz gerektiğini, dolayısıyla bu durumda beraberliğe yol açtığını gösteriyor.
Bir formülle hesaplanabilen, iyi bilinen bir görsel akıl yürütme bulmacasına geçelim. Bu yüzden her iki modele de girdi olarak aşağıdaki istemle birlikte aşağıdaki şekli verdim.
Aşağıdaki 3 dairenin hepsinin çevrelerinde düz çizgilerle birbirine bağlanan mavi noktalar var. İlk daire, onu iki bölgeye ayıran iki mavi noktaya sahiptir. Çevresinde herhangi bir yerde 7 nokta bulunan bir daire verildiğinde, dairenin bölünebileceği maksimum bölge sayısı nedir?
Bu durumda GPT-4o, 57 gibi hızlı bir şekilde doğru cevabı buldu. Ancak Claude 3.5, 64 cevabını verdi ki bu pek de doğru değil. Her iki model de cevaba neden ulaştıklarına dair mantıksal akıl yürütme adımları verdi. GPT-4o'daki matematik formüllerinin formatı Claude 3.5'in formatına tercih edilir.
Testlerimize dayanarak, ister saf destekli kod ister GUI kodu olsun, kod oluşturma görevlerinde kazananın Claude 3.5 sonnet olduğu sonucuna vardık. Mantıksal akıl yürütme görevleriyle yakın bir bağdır. Ancak konu matematiksel muhakeme görevlerine geldiğinde, GPT-4o hâlâ başı çekiyor ve Claude henüz yetişemiyor.
Üretim hızı açısından Claude, metin veya kodu GPT-4o'dan çok daha hızlı ürettiği için şüphesiz kazanandır. Bizim göz atın
Bu makaleyi beğendiyseniz neden beni takip etmiyorsunuz?
Ayrıca lütfen bana abone olun