Claude model serisinin arkasındaki şirket olan Anthropic, Claude 3.5 Sonnet'i piyasaya sürdü. Bu, hepimizin akıl yürütme, özetleme vb. gibi çoğu görev için varsayılan en iyi model olarak GPT-4o'yu kabul ettiğimiz bir zamanda geliyor. Anthropic, kendi modelinin zeka için yeni "endüstri standardını" belirlediğini cesur bir şekilde iddia ediyor.  Ayrıca, eğer denemek isterseniz Claude.ai'de ücretsiz olarak mevcut. Biz de heyecanlandık ve modeli test edip GPT-4o ile karşılaştırmak istedik. Bu makale, Claude 3.5 ile yayımlanan özelliklere genel bir bakışla başlıyor ve onu kod oluşturmanın yanı sıra mantıksal ve matematiksel akıl yürütme görevlerinde GPT-4o'ya göre test ediyor.  Ana Özellikler  Model, çoğu görevde GPT-4o'yu geride bıraktığını iddia eden üç ana özellik veya yenilikle birlikte geliyor.      Model, aşağıda yayınlanan sonuçlara göre 5 görüş görevinden 4'ünde son teknoloji performansa sahiptir. Geliştirilmiş görme görevleri.    GPT-4o veya Claude Opus gibi öncülleriyle karşılaştırıldığında Claude Sonnet, 2 kat üretim hızına sahiptir. 2x hız.    — kod oluşturma ve animasyon gibi görevler için yeni bir kullanıcı arayüzü. Artifacts  Özellikleri daha derinlemesine inceleyelim ve bunları uzun süredir hüküm süren Yüksek Lisans Kralı GPT-4o ile karşılaştıralım.  Başlarken  Başlamak için Claude.ai web sitesinde oturum açmamız ve eserler özelliğini etkinleştirmemiz gerekiyor. Deneysel bir özellik olduğu için etkinleştirmemiz gerekiyor. Aşağıda gösterildiği gibi özellik önizlemesine girmeli ve Artifact'leri buradan etkinleştirmeliyiz.  Etkinleştirildiğinde model, kodlama veya animasyon gibi ihtiyaç duyulan görevler için yan tarafta özel bir pencere gösterecektir.  Vizyon Görevleri - Görsel Muhakeme  Geliştirilmiş görsel muhakeme yeteneğini test etmek için aşağıdaki iki grafiği Claude Sonnet modeline yükleyip "Bu verilerden ne anlayabilirsiniz?" sorusunu sorduk.   Görsel muhakemeyi test etmek için görsel olarak grafikler  Claude Sonnet'in yanıtı şaşırtıcıydı. Derin öğrenme sürecini tam olarak özetledi: "Bu veriler, derin öğrenme mimarilerinde ve model ölçeklendirmede hızlı ilerlemeyi gösteriyor, daha büyük, daha güçlü modellere doğru bir eğilim gösteriyor". GPT-4o'dan da benzer bir yanıt aldık. Hangisinin daha iyi olduğunu daha iyi anlamak için her iki modeli de dört görevde sistematik olarak karşılaştırmaya başladık: kodlama, kullanıcı arayüzü ile kodlama, mantıksal akıl yürütme ve Matematik akıl yürütme.  GPT-4o'ya karşı — Hangisi en iyisi?  Artık bir genel bakış gördüğümüze göre, daha derine inelim ve modeli bir incelemeye alalım. Kod oluşturmayı, mantıksal akıl yürütmeyi ve matematiksel akıl yürütmeyi test edelim.  Kod Oluşturma  Kod üretimi için her iki modelden de ünlü Sudoku oyununu oynamak için kod üretmelerini isteyeceğim. Her iki modele de tam olarak "sudoku oyununu oynamak için python kodu yazın" komutunu verdim. Bu istemle hem Claude 3.5 hem de GPT-4o, yalnızca komut isteminden etkileşim kurabileceğimiz bir kod üretir. UI kodunun nasıl oluşturulacağını belirtmediğimiz için bu beklenen bir durumdur. Bazı ilk gözlemler:  Her iki model de hatasız kod üretir.  Claude, zorluk seviyesini seçme özelliğine sahip kod oluşturur. Ancak GPT-4o bunu yapmıyor!  Kod oluşturma hızıyla Claude, şüphesiz GPT-4o'yu geride bırakıyor  GPT-4o gereksiz paketlerle kod üretme eğilimindedir  Kullanıcı Arayüzü ile Kod Oluşturma  Komut istemiyle etkileşimde bulunmak herkesin harcı olmadığından modellerin kullanıcı arayüzü ile kod üretmesini istedim. Bunun için komut istemini “sudoku oyunu oynamak için kod yaz” olarak değiştirdim. Bu sefer, yalnızca arka uç kodunu üretmesini isteyeceğini düşündüğüm için komut isteminden "python"u kaldırdım. Beklendiği gibi Claude 3.5 bu sefer aşağıdaki gibi işlevsel bir kullanıcı arayüzü üretti. Kullanıcı arayüzü tamamen sağlam ve çekici olmasa da işlevseldi.  Ancak GPT-4o ne yazık ki benzer bir kullanıcı arayüzü üretmedi. Hala etkileşimli bir komut istemiyle kod üretiyordu.  Bulmaca 1 — Mantıksal Muhakeme  İlk bulmaca için aşağıdaki soruyu sordum:   Jane, Jill'i ziyarete gitti. Jill, Jane'in tek kocasının kayınvalidesinin tek kocasının tek kızının tek kızıdır. Jane'in Jill ile ilişkisi nedir?  Her iki model de bir dizi akıl yürütme adımıyla ortaya çıktı ve soruyu doğru yanıtladı. Yani bu durumda Claude 3.5 ile GPT-4o arasında bir bağ olması gerekiyor.  Bulmaca 2 — Mantıksal Muhakeme  İkinci bulmaca için aşağıdaki soruyu sordum:   Kelimelerden hangisi diğerlerine en az benziyor? Farkın sesli harflerle, ünsüz harflerle veya hecelerle hiçbir ilgisi yoktur. DAHA FAZLA, ÇİFTLER, GRAVÜRLER, FERMUAR\  Bunun için her iki model de farklı mantıksal akıl yürütme adımları uygulayarak farklı yanıtlar ortaya çıkarmıştır. Claude, fermuarın hem isim hem de fiil olarak işlev görebilen tek kelime olduğunu düşündü. Ancak diğerleri ya sadece isim ya da sıfattır. Yani cevap olarak ZIPPER'ı belirledi. Öte yandan GPT-4o, bunun somut bir nesne ya da belirli bir insan tipi olmadığına dair DAHA FAZLA gerekçe belirledi.  Bütün bunlar, istemi daha belirgin hale getirmemiz gerektiğini, dolayısıyla bu durumda beraberliğe yol açtığını gösteriyor.  Bulmaca 3 – Matematiksel akıl yürütme  Bir formülle hesaplanabilen, iyi bilinen bir görsel akıl yürütme bulmacasına geçelim. Bu yüzden her iki modele de girdi olarak aşağıdaki istemle birlikte aşağıdaki şekli verdim.     Aşağıdaki 3 dairenin hepsinin çevrelerinde düz çizgilerle birbirine bağlanan mavi noktalar var. İlk daire, onu iki bölgeye ayıran iki mavi noktaya sahiptir. Çevresinde herhangi bir yerde 7 nokta bulunan bir daire verildiğinde, dairenin bölünebileceği maksimum bölge sayısı nedir?  Bu durumda GPT-4o, 57 gibi hızlı bir şekilde doğru cevabı buldu. Ancak Claude 3.5, 64 cevabını verdi ki bu pek de doğru değil. Her iki model de cevaba neden ulaştıklarına dair mantıksal akıl yürütme adımları verdi. GPT-4o'daki matematik formüllerinin formatı Claude 3.5'in formatına tercih edilir.  Kararımız  Testlerimize dayanarak, ister saf destekli kod ister GUI kodu olsun, kod oluşturma görevlerinde kazananın Claude 3.5 sonnet olduğu sonucuna vardık. Mantıksal akıl yürütme görevleriyle yakın bir bağdır. Ancak konu matematiksel muhakeme görevlerine geldiğinde, GPT-4o hâlâ başı çekiyor ve Claude henüz yetişemiyor.  Üretim hızı açısından Claude, metin veya kodu GPT-4o'dan çok daha hızlı ürettiği için şüphesiz kazanandır. Bizim göz atın  Metin oluşturma hızını gerçek zamanlı olarak karşılaştırmak istiyorsanız.   video Haykırmak     Bu makaleyi beğendiyseniz neden beni takip etmiyorsunuz?   heyecan Haftanın her günü en iyi yapay zeka laboratuvarlarından araştırma güncellemelerini nerede paylaşıyorum?     Ayrıca lütfen bana abone olun   Youtube kanalı AI kavramlarını ve makalelerini görsel olarak açıkladığım yer.  

This story contains new, firsthand information uncovered by the writer.

Opus

Puzzle

YouTube

Why not checkout more about AI Bites!

Read My Stories

Bu ses hikayenin orijinal dilinde üretilmiştir!

Claude 3.5 Sonnet vs GPT-4o — Dürüst bir inceleme

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Kazanmak için Dokun: Telegram, Solana'dan Önce Sonraki 10 Milyar Kripto Kullanıcısına Katılabilir

Claude Sonnet 3.5 Sistem Bilgi Sızıntısı: Adli Analiz

Sulara Yelken Açmak: Data Lakes ile Üretim Sınıfında RAG Uygulamaları Geliştirme

Telegram: Kripto Adası'nın anakaraya olan köprüsü

Kazanmak için Dokun: Telegram, Solana'dan Önce Sonraki 10 Milyar Kripto Kullanıcısına Katılabilir

Claude Sonnet 3.5 Sistem Bilgi Sızıntısı: Adli Analiz

Sulara Yelken Açmak: Data Lakes ile Üretim Sınıfında RAG Uygulamaları Geliştirme

Telegram: Kripto Adası'nın anakaraya olan köprüsü

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps