Yazarlar: Yew Ken Chia, Ruochen Zhao, Xingxuan Li, Bosheng Ding, Lidong Bing
Son zamanlarda, OpenAI'nin ChatGPT'si [1] gibi konuşmaya dayalı yapay zeka modelleri, yüksek kaliteli yazılı içerik oluşturma, insan benzeri konuşmalar yapma, gerçek soruları yanıtlama ve daha fazlasını yapma yeteneğiyle halkın hayal gücünü yakaladı.
Böyle bir potansiyele sahip olan Microsoft ve Google, kendilerini geleneksel arama motorlarıyla birleştiren yeni hizmetleri [2] duyurdular .
Konuşma destekli arama motorlarının yeni dalgası, karmaşık soruları doğal bir şekilde yanıtlama, arama sonuçlarını özetleme ve hatta yaratıcı bir araç olarak hizmet etme potansiyeline sahiptir.
Ancak teknoloji şirketleri bunu yaparken artık modellerinin kullanıcıları yanlış, asılsız veya çelişkili yanıtlarla yanıltmamasını sağlamak konusunda daha büyük bir etik zorlukla karşı karşıya kalıyor. Dolayısıyla şu soru doğal olarak ortaya çıkıyor: ChatGPT benzeri modeller gerçek doğruluğu garanti edebilir mi?
Bu makalede, Microsoft'un yeni Bing'inde [9] ve Google'ın Bard'ında [3] şu anda yapılamayacağını öne süren bazı gerçek hataları ortaya çıkarıyoruz.
Ne yazık ki, yanlış beklentiler felaket sonuçlara yol açabilir. Microsoft'un yeni Bing duyurusuyla hemen hemen aynı zamanlarda Google, Bard adında yeni bir konuşmaya dayalı yapay zeka hizmetini aceleyle duyurdu.
Aldatmacaya rağmen, Bard'ın tanıtım videosunda [14] gerçeklere dayalı bir hata yapması, sonunda Google'ın hisse fiyatını [4] neredeyse %8 oranında düşürmesi ve piyasa değerinden 100 milyar dolar kaybetmesiyle beklentiler hızla paramparça oldu.
Öte yandan Microsoft'un yeni Bing'i hakkında daha az inceleme yapıldı. Gösteri videosunda [8], yeni Bing'in en iyi şair olarak bir rock şarkıcısını önerdiğini, doğum ve ölüm tarihlerini uydurduğunu ve hatta mali raporların tam bir özetini hazırladığını gördük.
Yeni Bing'in yanıtlarının her zaman gerçekçi olmayabileceği yönündeki sorumluluk reddi beyanlarına [9] rağmen, aşırı iyimser duygular kaçınılmaz olarak hayal kırıklığına yol açabilir.
Bu nedenle amacımız, konuşma destekli arama motorlarının karşılaştığı gerçek zorluklara dikkat çekmek ve böylece gelecekte bunlara daha iyi yanıt verebilmektir.
Microsoft, geleneksel arama motorlarının kapsamında devrim yaratacağını iddia ederek yapay zeka destekli yeni Bing arama motorunu piyasaya sürdü. Gerçekten durum bu mu? Gösteri videosunu [8] ve örnekleri [9] daha derinlemesine inceledik ve üç ana türde olgusal sorun bulduk:
Mali raporlarda uydurma rakamlar: Yeni Bing'e güvenirken dikkatli olun!
Yeni Bing'in gösteride mali raporun tam bir özetini uydurması bizi şaşırttı!
Microsoft yöneticisi Yusuf Mehdi, izleyicilere Gap Inc. 2022 3. Çeyrek Mali Raporunun [10a] bir özetini otomatik olarak oluşturmak için "sayfadan önemli çıkarımlar" komutunun nasıl kullanılacağını gösterdiğinde, aşağıdaki sonuçları aldı:
Ancak daha yakından incelendiğinde, oluşturulan özetteki tüm önemli rakamların hatalı olduğu görülüyor. Doğrulayıcı referanslar olarak aşağıda orijinal mali rapordan alıntılar göstereceğiz.
Yeni Bing'e göre ayarlama sonrası faaliyet marjı %5,9 iken kaynak raporunda bu oran aslında %3,9'du.
Benzer şekilde, düzeltilmiş seyreltilmiş hisse başına kazanç, 0,71 $ olması gerekirken 0,42 $ olarak oluşturuldu.
Net satışlarla ilgili olarak, yeni Bing'in özeti "düşük çift haneli büyüme" iddiasında bulunurken, orijinal rapor "net satışların orta tek haneli rakamlara düşebileceğini" belirtiyordu.
Kaynak rapordaki gerçek rakamlarla çelişen üretilen rakamların yanı sıra, yeni Bing'in kaynakta olmayan sanrısal gerçekleri de üretebildiğini gözlemliyoruz.
Yeni Bing'in oluşturduğu özette, "yaklaşık %7'lik faaliyet marjı ve 1,60 ile 1,75 dolar arası seyreltilmiş hisse başına kazanç" kaynak raporunda hiçbir yerde bulunmuyor.
Ne yazık ki, yeni Bing'e "bunu bir tablodaki Lululemon ile karşılaştırması" talimatı verildiğinde durum daha da kötüleşti. Yeni Bing tarafından oluşturulan finansal karşılaştırma tablosu çok sayıda hata içeriyordu:
Aslında bu tablo yarı yarıya yanlıştır. Gap Inc. sütununda tüm rakamlardan 6 rakamdan 3'ü yanlış, Lululemon için de aynısı geçerli.
Daha önce de belirtildiği gibi, Gap Inc.'in gerçek işletme marjı %4,6'dır (veya ayarlama sonrasında %3,9) ve seyreltilmiş hisse başına kazanç 0,77 $ (veya ayarlama sonrasında 0,71 $) olmalıdır.
Yeni Bing ayrıca Gap Inc.'in nakit ve nakit benzerlerinin gerçekte 679 milyon dolar iken 1,4 milyar dolar olduğunu iddia etti.
Lululemon'un 2022 3. Çeyrek Mali Raporuna [10b] göre, brüt kar marjının %55,9 olması gerekirken, yeni Bing bunun %58,7 olduğunu iddia ediyor.
Faaliyet marjı %19,0 olmalı, yeni Bing ise bunun %20,7 olduğunu iddia ediyor. Sulandırılmış hisse başına kazanç aslında 2,00 dolarken, yeni Bing bunun 1,65 dolar olduğunu iddia ediyor.
Peki bu rakamlar nereden geldi? Bunun, orijinal belgenin başka bir kısmından yanlış yerleştirilmiş bir sayı olup olmadığını merak ediyor olabilirsiniz. Cevap hayır. İlginçtir ki, bu numaralar orijinal belgede hiçbir yerde bulunmuyor ve tamamen uydurmadır.
Aslında, üretken modellerin çıktılarını daha gerçeklere dayalı olacak şekilde kısıtlamak hala açık bir araştırma sorunudur.
Açıkça konuşursak, ChatGPT gibi popüler üretken yapay zeka modelleri, gerçekleri kaynaktan kesin olarak kopyalayıp yapıştırmak yerine, sabit bir kelime dağarcığından üretilecek kelimeleri seçiyor.
Bu nedenle, olgusal doğruluk, üretken yapay zekanın doğuştan gelen zorluklarından biridir ve mevcut modellerle kesin olarak garanti edilemez. Kullanıcılar sonuçların güvenilir ve gerçeklere dayalı olarak doğru olduğuna güvendiğinden, arama motorları söz konusu olduğunda bu büyük bir endişe kaynağıdır.
Japon şair: gizlice rock şarkıcısı mı?
Yeni Bing'in "en iyi Japon şairleri" hakkında soru sorulduğunda yukarıdaki yanıtta da görüldüğü gibi, yeni Bing'in yalnızca sayılar açısından değil aynı zamanda belirli varlıkların kişisel ayrıntıları konusunda da olgusal hatalar ürettiğini gözlemliyoruz.
Oluşturulan doğum, ölüm ve meslek tarihi gerçekte başvurulan kaynakla çelişmektedir. Wikipedia [11a] ve IMDB'ye [11a] göre Eriko Kishida 1929'da doğdu ve 2011'de öldü. O bir oyun yazarı ve denemeci değil, çocuk kitabı yazarı ve çevirmendi.
Yeni Bing, aslında Japonya'da ünlü bir rock yıldızı olan Gackt'ı en iyi Japon şairi olarak ilan ederken hata yapmaya devam etti. Wikipedia kaynağına göre [11b] kendisi bir aktör, müzisyen ve şarkıcıdır. Kaynakta herhangi bir şiir yayımladığına dair bilgi bulunmamaktadır.
Bing'in gece kulübü tavsiyelerine uyuyor musunuz? Kapalı bir kapıyla karşı karşıya olabilirsiniz.
Ayrıca yeni Bing, “Gece hayatı nerede?” sorusuna Mexico City'de ziyaret edilebilecek gece kulüplerinin bir listesini de yaptı. Endişe verici bir şekilde, hemen hemen tüm kulüplerin açılış saatleri yanlış oluşturuluyor:
Açılış saatlerini, makalenin sonuna da eklenmiş olan birden fazla kaynaktan kontrol ettik. El Almacen [12a] aslında Salı'dan Pazar'a 19:00'dan 03:00'e kadar açıkken, yeni Bing bunun "Salı'dan Pazar'a 17:00'den 23:00'e kadar açık" olduğunu iddia ediyor.
El Marra [12b] aslında Perşembe'den Cumartesi'ye saat 18.00'den 02.30'a kadar açık, ancak "Perşembe'den Pazar'a 18.00'dan 03.00'e kadar açık" olduğu iddia ediliyor.
Guadalajara de Noche [12c] her gün 17:30'dan 1:30'a veya 12:30'a kadar açıkken, yeni Bing bunun "her gün 20:00'den 03:00'e kadar açık" olduğunu iddia ediyor.
Açılış saatlerinin yanı sıra, yeni Bing'in bahsettiği inceleme yıldızları ve sayılarına ilişkin açıklamaların neredeyse tamamı hatalı. Yelp, Tripadvisor veya Google Haritalar'da arama yapmanıza rağmen eşleşen yorum puanları bulunamıyor.
Yukarıda belirtilen durumlara ek olarak tanıtım videolarında ürün fiyatı uyuşmazlıkları, mağaza adresi hataları ve zamanla ilgili hatalar gibi başka sorunlar da bulduk. İlgileniyorsanız bunları doğrulayabilirsiniz.
Yeni Bing arama motoru henüz tam olarak erişilebilir olmasa da, Microsoft tarafından sağlanan bir avuç tanıtım örneğini [9] inceleyebiliriz. Daha yakından incelendiğinde, özenle seçilmiş bu örnekler bile gerçeklere dayalı potansiyel sorunları gösteriyor.
“Çocuğumla hangi sanat fikirlerini yapabilirim?” başlıklı demoda yeni Bing, her öneri için yetersiz bir işçilik malzemesi listesi üretti [13].
Örneğin, karton kutudan gitar yapmayı önerirken malzemeleri listeliyordu: “bir mendil kutusu, bir karton tüp, biraz paket lastiği, boya ve yapıştırıcı”.
Ancak, belirtilen web sitesinin önerdiği şekilde inşaat kağıdı, makas, washi bant, köpük çıkartmalar ve tahta boncukları içermiyordu [13a].
Bir diğer olası endişe ise, yeni Bing'in, 12 gösterim örneğinde en az 21 kez, referans kaynaklarında hiçbir gerçek temeli olmayan içerik üretmesidir.
Gerçeklere dayalı temelin olmayışı ve kaynakların tam listesinin belirtilmemesi, kullanıcıların yeni Bing'in güvenilirliğini sorgulamasına yol açabilir.
Google ayrıca Bard [3] adında bir konuşmaya dayalı yapay zeka hizmetini de tanıttı . Kullanıcılar, geleneksel arama sorgularını yazmak yerine, web destekli sohbet robotu ile gündelik ve bilgilendirici bir sohbet gerçekleştirebilir.
Örneğin, bir kullanıcı başlangıçta yıldız gözlemi için en iyi takımyıldızları sorabilir ve ardından bunları görmek için yılın en iyi zamanını sorarak devam edebilir. Ancak açık bir sorumluluk reddi beyanı, Bard'ın "yanlış veya uygunsuz bilgi" verebileceğidir.
Bard'ın Twitter gönderisindeki [14] ve video gösterimindeki [15] gerçek doğruluğunu araştıralım.
Google CEO'su Sundar Pichai yakın zamanda Bard'ın yeteneklerini gösteren kısa bir video [14] yayınladı. Ancak cevap, astrofizikçiler tarafından hemen işaret edilen ilk ötegezegen görüntülerini hangi teleskopun yakaladığı konusunda bir hata içeriyordu [16a].
NASA tarafından doğrulandığı üzere [16b], bir dış gezegenin ilk görüntüleri James Webb Uzay Teleskobu (JWST) yerine Çok Büyük Teleskop (VLT) tarafından yakalandı.
Ne yazık ki, Bard'ın maliyetli bir deney olduğu ortaya çıktı; çünkü Google'ın hisse senedi fiyatı, fiili hata haberinin bildirilmesinin ardından keskin bir şekilde düştü [4].
Bard'ın video gösterimiyle ilgili olarak, yukarıdaki resim Google'ın Bard'ının takımyıldızların ne zaman görünür olduğu sorusuna nasıl yanıt verdiğini göstermektedir [16]. Ancak Orion'un zamanlaması birçok kaynakla tutarsız.
Google'ın en iyi arama sonucuna [17a] göre, takımyıldız en çok Ocak'tan Mart'a kadar görülebilir. Wikipedia'ya [17b] göre, en çok Ocak'tan Nisan'a kadar görünür.
Ayrıca takımyıldızın görünürlüğü kullanıcının Kuzey yarımkürede mi yoksa Güney yarımkürede mi olduğuna bağlı olduğundan cevap eksiktir.
Yeni Bing ve Bard hizmetleri pratikte aynı derecede güvenilir olmayabilir. Bunun nedeni arama sonuçlarının kalitesi, konuşma modellerinin kalitesi ve verilen yanıtların şeffaflığı gibi faktörlerdir.
Şu anda her iki hizmet de, konuşmaya dayalı yapay zeka modellerinin yanıtlarını yönlendirmek için ilgili bilgi kaynaklarına güveniyor.
Bu nedenle, cevapların gerçek doğruluğu , bilgi erişim sistemlerinin kalitesine [18] ve konuşma modelinin bilgi kaynaklarına gerçeklere dayanan yanıtları ne kadar iyi üretebildiğine bağlıdır.
Hizmetlerin tüm ayrıntıları kamuya açıklanmadığından hangisinin daha derin testler yapılmadan daha yüksek gerçek doğruluk elde edebileceği belirsizdir. Öte yandan şeffaflığın da güvenilirlik kadar önemli olduğunu düşünüyoruz.
Örneğin yeni Bing'in çoğu durumda referans bağlantıları sağladığı için yanıtların kaynağı konusunda daha şeffaf olduğunu gözlemliyoruz. Bu, kullanıcıların bağımsız olarak doğruluk kontrolü yapmasına olanak tanır ve gelecekteki konuşma hizmetlerinin de bu özelliği sunacağını umuyoruz.
Yukarıda gösterilen çok sayıda gerçek hata nedeniyle, ChatGPT gibi konuşmaya dayalı yapay zeka modellerinin, güvenilir kaynaklarla sunulduğunda bile çelişkili veya var olmayan gerçekler üretebileceği açıktır.
Daha önce de belirtildiği gibi, ChatGPT benzeri modellerin gerçeklere dayanmasını sağlamak acil bir araştırma zorluğudur.
Üretken doğaları nedeniyle, çıktılarını kontrol etmek zordur [19] ve üretilen çıktının bilgi kaynaklarıyla gerçek anlamda tutarlı olduğunu garanti etmek daha da zordur.
Kısa vadeli bir çözüm, konuşabilen yapay zekanın güvenli olmayan veya gerçeğe aykırı çıktılar üretmesini önlemek için kısıtlamalar getirmek olabilir. Bununla birlikte, kötü niyetli taraflar en sonunda güvenlik kısıtlamalarını [7] atlayabilirken , gerçeklerin doğrulanması [20] da çözülmemiş başka bir araştırma sorunudur.
Uzun vadede hem insan hem de makine yazarlarının muhtemelen kusurlu kalacağını kabul etmek zorunda kalabiliriz. Daha güvenilir yapay zekaya doğru ilerlemek için ChatGPT gibi konuşmaya dayalı yapay zeka modelleri, anlaşılmaz kara kutular olarak kalamaz [21].
Veri kaynakları ve potansiyel önyargılar konusunda tamamen şeffaf olmalı, cevaplarına güvenleri düşük olduğunda bunu raporlamalı ve akıl yürütme süreçlerini açıklamalıdırlar.
Sistematik bir genel bakışın ardından, ChatGPT gibi konuşmaya dayalı yapay zeka tarafından desteklenen yeni dalga arama motorlarının gösterdiği önemli gerçek sınırlamalar bulduk.
Olası olgusal yanlışlıklara ilişkin sorumluluk reddi beyanlarına ve karar vermeden önce muhakeme yeteneğimizi kullanmamız yönündeki uyarılara rağmen, özenle seçilen gösterilerde bile birçok olgusal hatayla karşılaştık.
Bu nedenle şunu düşünmeden edemiyoruz: Arama motorlarının amacı güvenilir ve gerçek cevaplar sağlamak değilse nedir? İnternetin yapay zeka tarafından üretilen uydurmalarla dolu yeni çağında doğruluğu nasıl sağlayacağız?
Microsoft ve Google gibi teknoloji devlerinin devasa kaynaklarına rağmen mevcut ChatGPT benzeri modeller gerçek doğruluğu garanti edemiyor. Öyle olsa bile, konuşma modellerinin potansiyeli ve daha güvenilir yapay zekanın geliştirilmesi konusunda hâlâ iyimseriz.
ChatGPT gibi modeller büyük bir potansiyel gösterdi ve şüphesiz pek çok sektörü ve günlük hayatımızın çeşitli yönlerini iyileştirecek. Ancak uydurma içerik ve gerçek dışı cevaplar üretmeye devam etmeleri durumunda halk yapay zekaya karşı daha da temkinli davranabilir.
Bu nedenle, belirli modelleri veya şirketleri eleştirmek yerine, araştırmacıları ve geliştiricileri, öngörülebilir gelecekte insanların yeni teknolojiye daha yüksek düzeyde güven duymasına olanak tanıyacak şekilde yapay zeka hizmetlerinin şeffaflığını ve gerçek doğruluğunu artırmaya odaklanmaya çağırmayı umuyoruz.
Referans Makaleleri
[1] ChatGPT: Diyalog için Dil Modellerini Optimize Etme: https://openai.com/blog/chatgpt/
[2] Bing, Bard ve yapay zeka aramasının geleceğiyle ilgili 7 sorun: https://www.theverge.com/2023/2/9/23592647/ai-search-bing-bard-chatgpt-microsoft-google-problems -zorluklar
[3] Google: Yapay zeka yolculuğumuzda önemli bir sonraki adım: https://blog.google/teknoloji/ai/bard-google-ai-search-updates/
[4] Google'ın Bard AI bot hatası, 100 milyar dolarlık hisse kaybına yol açtı: https://www.bbc.com/news/business-64576225
[5] Web'deki yardımcı pilotunuz olan yapay zeka destekli yeni Microsoft Bing ve Edge ile aramayı yeniden icat ediyoruz: https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new- AI-destekli-microsoft-bing-ve-web-için-yardımcı-pilotunuzu-edgeleyin/
[6] Şirketin yapay zeka sohbet robotunun demo sırasında hata yapmasının ardından Google hisseleri 100 milyar dolar kaybetti: https://www.cnn.com/2023/02/08/tech/google-ai-bard-demo-error
[7] Bilgisayar korsanları, kötü amaçlı yazılımlara yönelik ChatGPT kısıtlamalarını aşan bir hizmet satıyor: https://arstechnica.com/information-teknoloji/2023/02/now-open-fee- Based-telegram-service-that-uses-chatgpt-to -kötü amaçlı yazılım oluştur/
Yeni Bing olgu doğrulama kaynakları:
[8] Microsoft'un basın bülteni videosu ( https://www.youtube.com/watch?v=rOeRWRJ16yY )
[9] Microsoft'un demo sayfası : ( https://www.bing.com/new )
Yeni Bing ve Mali Rapor:
[10a] Gap Inc.'in videoda gösterilen mali raporu : https://s24.q4cdn.com/508879282/files/doc_financials/2022/q3/3Q22-EPR-FINAL-with-Tables.pdf
[10b] Lululemon Mali raporu resmi web sitesinde bulunur: https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:\~:text=2022'nin üçüncü çeyreği için Üçüncüye kıyasla %2C,%2C ve uluslararası alanda %4125 arttı
Yeni Bing ve Japon Şairleri:
[11a] Eriko Kishida: Vikipedi ( https://twitter.com/sundarpichai/status/1622673369480204288 ), IMDB ( https://www.imdb.com/name/nm1063814/ )
[11b] Gacket: Wikipedia ( https://en.wikipedia.org/wiki/Gackt )
Meksika'daki yeni Bing ve Gece Kulüpleri:
[12a] El Almacen: Google Haritalar ( https://goo.gl/maps/3BL27XgWpDVzLLnaA ), Restoran Gurusu ( https://restaurantguru.com/El-Almacen-Mexico-City )
[12b] El Marra: Google Haritalar ( https://goo.gl/maps/HZFe8xY7uTk1SB6s5 ), Restoran Gurusu ( https://restaurantguru.com/El-Marra-Mexico-City )
[12c] Guadalajara de Noche: Tripadvisor ( https://www.tripadvisor.es/Attraction_Review-g150800-d3981435-Reviews-Guadalajara_de_Noche-Mexico_City_Central_Mexico_and_Gulf_Coast.html ), Google Haritalar ( https://goo.gl/maps/UeHCm1EeJZFP7wZYA ) )
[13] Yeni Bing ve el işi fikirleri ( https://www.bing.com/search?q=Yeni yürümeye başlayan çocuklar için yalnızca karton kutular, plastik şişeler, kağıt ve ip&iscopilotedu=1&form=MA13G7 kullanan talimatlar içeren sanat ve el işi fikirleri ) :
[13a] Alıntı yapılan web sitesi: Mutlu Bebek Oyun Zamanı ( https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/ )
Bard bilgi doğrulama kaynakları:
[14] Tanıtım blogu ( https://twitter.com/sundarpichai/status/1622673369480204288 ) ve video ( https://twitter.com/sundarpichai/status/1622673775182626818 )
[15] Video gösterimi ( https://www.youtube.com/watch?v=yLWXJ22LUEc )
İlk dış gezegen görüntülerini hangi teleskop yakaladı?
[16a] Twitter Yazan: Grant Tremblay (Amerikalı astrofizikçi) ( https://twitter.com/astrogrant/status/1623091683603918849 )
[16b] NASA: 2M1207 b — Bir dış gezegenin ilk görüntüsü ( https://exoplanets.nasa.gov/resources/300/2m1207-b-first-image-of-an-exoplanet/ )
Takımyıldızlar göründüğünde
[17a] Google ( https://www.google.com/search?client=safari&rls=en&q=when+is+orion+visible&ie=UTF-8&oe=UTF-8 ) en iyi sonucu: Byju'nun ( https://byjus. com/soru-cevap/yıldız-orion-gökyüzünde-yılın-hangi-mevsiminde-görünür/ )
[17b] Wikipedia sayfası “Orion (takımyıldızı)”: https://en.wikipedia.org/wiki/Orion_(takımyıldızı)
Akademik Referanslar
[18] Bilgi Erişimine Giriş: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
[19] Kontrollü Metin Üretimine Doğru: http://proceedings.mlr.press/v70/hu17e/hu17e.pdf
[20] ATEŞ: Gerçek Çıkarma ve Doğrulama için geniş ölçekli bir veri kümesi: https://aclanthology.org/N18-1074.pdf
[21] Kara Kutunun İçine Bakış: Açıklanabilir Yapay Zeka (XAI) Üzerine Bir Araştırma: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8466590
Resim kredisi,HackerNoon AI Image Generator'ın 'robot bilgi denetleyicisi yapay zeka sohbet robotlarının doğruluğunu incelemek için büyütülmüş cam kullanıyor' istemi.