Matematiksel akıl yürütme uzun zamandır yapay zeka için zorlu bir sınır olmuştur. GPT-3 ve ChatGPT gibi dil modelleri birçok dil görevinde etkileyici bir performans elde etse de, üniversite düzeyindeki karmaşık matematik problemlerini doğru bir şekilde çözmekte hâlâ zorlanıyorlar. Gelişmiş matematiksel akıl yürütme yeteneklerinde uzmanlaşmak, bilim, mühendislik, finans ve daha fazlası gibi çeşitli alanlardaki yapay zeka uygulamalarının kilidini açabilir.
Son zamanlarda Tsinghua Üniversitesi ve Microsoft'tan araştırmacılar, büyük dil modellerinin matematiksel akıl yürütme becerilerini güçlendirmede önemli ilerleme kaydetti. Temel teknik yenilikleri (
Nasıl çalıştığını görelim!
Sayısal hesaplama ve temel cebir gibi görevler, mevcut modeller tarafından oldukça iyi bir şekilde yerine getirilebilir. Ancak çok adımlı çıkarımı, sembolik manipülasyonları ve soyut kavramları içeren karmaşık matematiksel problem çözme sorunlu olmaya devam ediyor.
Örneğin modeller genellikle değişkenlerin tanımlanmasını, denklem sistemlerinin kurulmasını ve metinde sözlü olarak açıklanan ilişkilerin matematiksel olarak resmileştirilmesini gerektiren cebir sözlü problemlerini çözmede başarısız olur. Geometri, mekansal akıl yürütme becerilerine duyulan ihtiyaç nedeniyle zorluklar yaratır. Lise ve üniversite matematik alıştırmaları ayrıca mevcut dil modellerini karıştıran ispatlar, integraller, matrisler ve daha fazlası gibi kavramları da tanıtmaktadır.
Araştırmacılar bu zorlukları iki ana faktöre bağlıyor:
Soyut muhakeme yeteneklerinin eksikliği : Günümüzde dil modelleri öncelikle internet metni derlemleri üzerinde eğitilmektedir. Bu, dilsel becerileri öğretirken, matematiksel akıl yürütme için gereken yapılandırılmış bilgiyi ve mantığı sağlamaz.
Sembolik hesaplamaları gerçekleştirememe : Dil, matematiksel sembolleri işlemek için gereken titizlik ve kesinlikten yoksundur. Modeller her adımda çok adımlı problemlerde biriken küçük hatalar yapabilir.
Bu zorlukların üstesinden gelmek için araştırmacılar, Araç-Entegre Akıl Yürütme adını verdikleri bir formatta akıl yürütmeye yönelik dil modellerini öğretmeyi öneriyorlar. En önemli yenilik, dış matematiksel araçları çağırmak için model tarafından oluşturulan doğal dil gerekçelerini kodla bir araya getirmektir.
Örneğin, karmaşık bir cebir sözlü problemi verildiğinde, model önce yaklaşımı kelimelerle tanımlayabilir, ardından denklem sistemini sembolik olarak kurmak için SymPy kullanarak bir Python programı yazabilir, bir çözüm elde etmek için onu çalıştırabilir ve son olarak sonucu sözlü olarak açıklayabilir.
Bu, dil modellerinin üst düzey akıl yürütme ve planlamadaki güçlü yönlerini, matematiksel araçların kesinliği ve hesaplama gücüyle tamamlar. Bunun, modellerin hem anlamsal anlayış hem de sembolik manipülasyon gerektiren sorunları çözme yeteneğini önemli ölçüde artırabileceğini öngörüyorlar.
Bu vizyonu gerçekleştirmek için araştırmacıların öncelikle matematik problemlerinde araçla bütünleşik akıl yürütmeyi gösteren bir veri seti oluşturmaları gerekiyordu. SymPy gibi araçlarla etkileşime girerken GSM8k ve MATH veri kümelerindeki sorunları çözen 16.000 GPT-3 örneğini otomatik olarak oluşturmak için GPT-3'ün yeteneklerinden yararlandılar.
Ekip, bu araç etkileşim yörüngeleri bütünüyle, taklit öğrenmeyi kullanarak LLaMA modelinin versiyonlarını önceden eğitti. Yani modeller, veri kümesinde gösterilen araç kullanım davranışını ve serpiştirilmiş doğal dil gerekçelerini tahmin etmek için eğitildi.
Bu yaklaşım, 7 milyar ila 70 milyar parametre arasında değişen bir dizi Araçla tümleşik Açık Kaynaklı Akıl Yürütme Aracısı (TORA) üretti.
Araştırmacılar TORA modellerini 10 farklı matematiksel muhakeme veri seti üzerinde sistematik olarak değerlendirdiler ve performansı önceki en gelişmiş tekniklerle karşılaştırdılar.
Sonuçlar, araçla bütünleşik muhakeme eğitiminin model boyutları ve görevlerde önemli kazanımlar sağladığını göstermektedir:
TORA modelleri, mevcut en iyi açık kaynaklı modellere kıyasla ortalama %13-19 daha yüksek doğruluk elde etti.
Rekabet düzeyindeki zorlu bir matematik testinde (MATH veri seti) TORA-7B, önceki en iyi modeli yüzde 22 puan geride bırakarak %40 doğruluk elde etti.
TORA-34B, MATH'de %51 doğruluk elde ederek aynı problemlerde GPT-4'ün %43'lük performansını geride bıraktı.
Bu, harici araçlardan yararlanmayı öğrenmenin, matematiksel akıl yürütmede GPT-4 gibi çok büyük modelleri bile önemli ölçüde geliştirebileceğini gösteriyor.
İlginçtir ki, aritmetik, cebir, matematik, geometri, olasılık vb. konuları kapsayan çeşitli problem türlerinde gelişmeler tutarlıydı. Araç entegrasyonunun geniş faydalar sağladığı görülüyor.
Model davranışını daha iyi anlamak için araştırmacılar, matematiksel alanlardaki araç kullanım modellerini sistematik olarak analiz etti:
Ayrıca doğal dil gerekçelerini veya araç entegrasyonunu ortadan kaldıran ablasyonları da değerlendirdiler:
Bu içgörüler hem dilsel hem de sembolik akıl yürütmenin tamamlayıcı güçlerine ışık tutar.
Araç entegrasyonundan elde edilen kazanımlara rağmen, iyileştirme için önemli bir alan bulunmaktadır. Araştırmacılar geometri ve ileri cebiri modellerin hala zorluk yaşadığı alanlar olarak tanımladılar.
SymPy gibi mevcut araçların mekansal akıl yürütme konusunda sınırlı yetenekleri olduğundan geometri bir zorluk teşkil etmektedir. Çok modlu akıl yürütmedeki ilerlemeler ve grafik kitaplıklarla daha sıkı entegrasyon yardımcı olabilir.
Soyut cebir için, bilinen teoremlerden yararlanmak ve problemleri sonuçtan geriye doğru çalışmak gibi matematikçiler tarafından kullanılan tekniklere ihtiyaç duyulabilir. Daha güçlü sembolik akıl yürütme yetenekleri de muhtemelen gereklidir.
Genel olarak bu araştırma, dil modelinin güçlü yönlerini özel dış araçlarla birleştirmenin matematiksel akıl yürütmeyi önemli ölçüde geliştirebileceğine dair umut verici kanıtlar sunuyor. Ancak, farklı akıl yürütme yöntemlerinin ve üst düzey matematiksel problem çözme stratejilerinin verimli bir şekilde entegre edilmesi açık bir sorun olmaya devam etmektedir. Bunlar gelecekteki çalışmalar için önemli yönlerdir.
Burada tanıtılan araç entegreli eğitim paradigması aynı zamanda mantık, sağduyulu muhakeme ve sanat gibi disiplinler arası muhakemeyi geliştirmek için dış yeteneklerin entegre edilmesine yönelik bir araştırmayı da teşvik edebilir. Bu, daha yetenekli ve çok yönlü yapay zeka sistemlerine doğru önemli bir adım olabilir.