Yapay Zeka "Çilek" Kelimesindeki "R" Harfini Neden Sayamıyor?
Büyük dil modelleri, özellikle OpenAI'nin ChatGPT'si, insan benzeri metinleri anlayabilen ve üretebilen makinelerle etkileşim kurma şeklimizi kökten değiştirdi. Ancak bu modeller kendi içlerinde tuhaflıklarla dolu karakterlerle geldi. Son zamanlarda tüm sosyal medyada dolaşan en sinir bozucu tuhaflık, bu büyük dil modelinin bir kelimedeki belirli bir harfin sayısını doğru bir şekilde sayamamasıydı. Çok popüler bir örnek, yapay zekanın "r" harfinin kaç kez göründüğünü doğru bir şekilde sayamadığı "çilek" kelimesidir. Peki bunu neden yapıyor? Cevap, bu modellerin dili nasıl işlediğinin ve ürettiğinin tam merkezinde yatıyor.
AI'nın harf sayma gibi sorularda tökezlemesinin başlıca nedenlerinden biri, kelimeleri gerçekten işleme şeklidir. GPT-3 ve GPT-4 gibi dil modelleri, kelimeleri ayrı ayrı harflerden oluşan bir dizi olarak ele almaz. Bunun yerine, metni "jeton" adı verilen daha küçük birimlere ayırırlar. Jetonlar, söz konusu modelin tasarımına ve söz konusu belirli kelimeye bağlı olarak bir karakter kadar kısa veya tüm bir kelime kadar uzun olabilir.
Örneğin, "çilek" kelimesi büyük ihtimalle iki jetona bölünürdü, modelin eğitimden bildiği kısmi kelime parçalarının temsilleri. Mesele şu ki, bunlar genellikle kelimedeki harflere karşılık gelmez. Bunun nedeni, "çilek" gibi örneklerde, yapay zekanın kelimenin tam, tek harflere bölünmesini değil, iki jetonu görmesidir; jeton kimlikleri 496 ve 675 gibi. Daha sonra belirli harfleri sayması istendiğinde, bu model jetonları belirli bir harfin oluşum sayısına geri eşlemenin kolay bir yolunu bulamayacaktır.
Temel olarak, dil modelleri bir dizideki bir sonraki kelimenin veya belirtecin ne olacağını, önceki kelimeler veya belirteçler tarafından verilen bağlama göre tahmin eder. Bu, özellikle tutarlı olmakla kalmayıp aynı zamanda bağlamının farkında olan metinler üretmek için işe yarar. Ancak, bir şeyi kesin olarak saymanız veya bireysel karakterler hakkında akıl yürütmeniz gereken amaçlara pek uygun değildir.
Yapay zekadan "strawberry" kelimesindeki "r" harfinin kaç kez geçtiğini saymasını isteseydiniz, o harfin her örneğinin sayısı ve konumunun türetilebileceği kelimenin bu kadar iyi bir temsiline sahip olmazdı. Bunun yerine, isteğin yapısından tahminler oluşturma hakkında öğrendiği kalıpta yanıt verir. Elbette, bu doğru olmayabilir, çünkü öğrendiği veriler harfleri saymakla ilgili değildir ve hatta örnek kelimemizdeki "r" harfini izlemek için gereken malzeme türünü bile içermeyebilir.
Bir diğer önemli nokta ise, çoğu sohbet robotunda kullanılan dil modellerinin başlı başına açık sayma veya aritmetik için uygun olmamasıdır. Başka bir deyişle, saf dil modelleri, öğrendikleri kalıplara göre olasılıkla ağırlıklandırılmış görevleri yapan ancak sayma gibi katı mantıksal akıl yürütme gerektiren görevlerde zorlanan gelişmiş sözlüklerden veya tahmini metin algoritmalarından biraz daha fazlasıdır. Yapay zekadan bir kelimeyi hecelemesi veya onu tek tek harflere ayırması istenirse, bu daha sık doğru cevap verebilir çünkü bu, eğitildiği görevle daha uyumludur: metin oluşturma.
Bu sınırlamalara rağmen, bu tür görevlerde AI'nın performansında iyileştirmeler mümkündür. Bunlar, AI'dan Python gibi her türlü programlama dilini kullanarak sayımı yapmasını isteyerek geliştirilebilir. Örneğin, AI'ya "strawberry" kelimesindeki "r" sayısını sayan bir Python fonksiyonu yazması talimatını vermeyi deneyebilirsiniz ve muhtemelen doğru yapacaktır. Bu yaklaşımı kullanıyoruz çünkü AI'nın kodu anlama ve üretme yeteneğinden yararlanıyor ve bu da görevi doğru şekilde gerçekleştirmek için yürütülebilir.
Bunun yanında, daha yeni nesil dil modelleri, bu modelleri sayma ve aritmetik gibi daha yapılandırılmış görevler için daha güçlü hale getiren diğer araçlar ve algoritmalarla birleştiriliyor.
Sembolik akıl yürütmeyi içselleştirmek veya LLM'leri dışsal akıl yürütme motorlarıyla birleştirmek, bir yapay zeka sisteminin bu eksiklikleri aşabilmesini sağlayacaktır.
"Çilek" gibi kelimelerdeki harf sayma sorunu, bu bağlamda çok daha büyük ve daha genel bir soruna işaret ediyor: Bu eğitilmiş modellerin "toplu aptallığı". Bu modeller, çok büyük veri kümeleri üzerinde eğitilmiş olsalar ve bu nedenle çok karmaşık düzeylerde metin üretimi gerçekleştirebilseler bile, bazen küçük bir çocuğun kolayca kaçınabileceği çok aptalca hatalar yapacaklardır. Bunun nedeni, modelin "bilgisinin" gerçek dünya anlayışı veya mantıksal çıkarımı yerine, desen tanıma ve istatistiksel ilişkilerden oluşması gerektiğidir.
Ayrıntılı olarak talimat verildiğinde veya birden fazla modelin birbirini kontrol ettiği bir duruma yerleştirildiğinde bile, AI yine de inatla yanlış cevaplara bağlı kalabilir. Bu davranış, AI sistemlerini güçlü yönlerinin ötesindeki yetenekler için abartmamanın, bunun yerine ne yapıp ne yapamayacaklarını tam olarak takdir etmenin ne kadar önemli olduğunu ayrıntılı olarak gösterir.
Yapay zekanın bir "çilek"teki "r" sayısını sayamaması önemsiz bir kusurdan çok daha fazlasıdır; daha ziyade, dil modellerinin altta yatan mimarisinin ve tasarım felsefesinin bir yansımasıdır. Bu modeller insan benzeri metin üretme, bağlamı anlama ve konuşmayı taklit etme konusunda çok güçlüdür ancak karakter düzeyinde özellikle ayrıntılara dikkat gerektiren görevler için doğrudan yapılmamıştır.
Yapay zeka sürekli olarak geliştikçe, gelecekteki modellerin, belirteçleştirme süreçlerinin iyileştirilmesi, ek akıl yürütme araçlarının entegre edilmesi veya hatta dili anlama ve manipüle etmenin tamamen farklı yollarının kullanılması yoluyla bu tür görevleri daha iyi yerine getirmesi muhtemeldir. O zamana kadar, sınırlamalarının anlaşılması, uygun geçici çözümler kullanılması ve anlayışı simüle edebilmesine rağmen henüz insanların yaptığı şekilde gerçek anlamda "anlamadığı" kabulüyle yaklaşılmalıdır.