Google Akademik'te "   " araması 2023'ten bu yana 16.000'den fazla öğeyle sonuçlanıyor. "Empatik yapay zekayı test etme" ve "empatik yapay zekayı değerlendirme" gibi ifadeler için yapılan bir arama, bu kümeyi yaklaşık 12.000 öğeye düşürüyor. Geçilmesi gereken pek çok başlık var! Elbette hepsini okuduğumu, hatta her başlığına baktığımı iddia edemem ama düşüncelerim şunlar. empatik yapay zeka  Empatinin ortak bir tanımına sahip olmalıyız.  "Yapay zeka gerçekten hissedebilir mi?" sorusunu görmezden gelmeyi kabul etmeliyiz. ve sadece yapay zekanın ürettiği şeyleri nasıl yorumladığımıza odaklanın; örneğin yapay zeka bir insan olsaydı, o insanın düşündüğünü veya hissettiğini nasıl hissederdik veya düşünürdük? (Vay be, bu biraz jimnastik gibi).  Duyguları tanımlamak, empatiyi tanımlamak, empatik yanıtlar üretmek ve diyaloglara empatik bir şekilde katılmak arasında ayrım yapmalıyız.  Tarihsel testlerin uygulanabilmesi, potansiyel olarak değiştirilebilmesi ve uygun şekilde değerlendirilebilmesi için yapay zekaların ne kadar farklı olduğunu kabul ederken, insanlardaki duygusal ve empatik yetenek testlerinin zengin geçmişini de hesaba katmalıyız.  Yapay zekaya uygun mevcut değerlendirme çerçevelerini anlamalıyız.  Yeni çerçeveler ve yaklaşımlar geliştirmeliyiz.  Empati Nedir?  Merriam-Webster:   ”. “Başkasının duygularını, düşüncelerini ve deneyimlerini anlama, farkında olma, duyarlı olma ve dolaylı olarak deneyimleme eylemi  Yüksek Lisans bağlamında "deneyimleme" ile ilgili olası endişeleri ortadan kaldırmak için bunu,   yeniden ifade edeceğim. bir başkasının duygularını, düşüncelerini ve deneyimlerini anlama, farkında olma, duyarlı olma ve dolaylı olarak deneyimliyor   eylemi olarak gibi görünme  Ve elbette, eğer konuşmayla ilgileniyorsak şunu ekleriz:   Elbette bir sosyopat da     ve tezahür edebilir, bu yüzden son bir ayarlama yapacağım. Ve bunu, konuşmadaki diğer tarafların eylemin farkında olacağı şekilde ortaya koyarız. bu şekilde ortaya çıkabilir   Empati:    .  Bir başkasının duygularını, düşüncelerini ve deneyimlerini anlama, farkında olma,   duyarlı olma ve dolaylı olarak yaşıyormuş gibi görünme eylemi olumlu bir şekilde Ve bunu öyle bir şekilde ortaya koyar ki, konuşmadaki diğer taraflar da eylemin farkında olur.  Bunu ve orijinal tanımı gözden geçirdiğimizde empatinin iki bileşeni açıkça ortaya çıkıyor: duygusal ve bilişsel.  Duygusal bileşen, empatinin duygusal veya hissetme kısmını ifade eder. Başka bir kişinin duygularını paylaşma veya yansıtma yeteneğidir. Örneğin, bir arkadaşınız üzgünse empatinizin duygusal kısmı sizin de üzgün hissetmenize neden olabilir veya en azından onun üzüntüsünü hissedebilirsiniz.  Bilişsel bileşen ise empatinin zihinsel veya düşünme kısmını ifade eder. Kişinin kendisini zihinsel olarak başka bir kişinin yerine koyabilmesi için kuyrukları aktif olarak tanımlama ve anlama yeteneğidir. Örneğin, bir meslektaşınız size üzerinde çalıştıkları zor bir projeden (bir kuyruk) yorgun bir sesle (bir kuyruk) bahsediyorsa, benzer bir durumda nasıl hissedeceğinizi aktif olarak hayal ederek onun stresini anlamayı denemeyi seçebilirsiniz. . Bazıları için bu yapay olarak etki yaratabilir.  Yapay Zekalar Hissedebilir mi?  Bu noktada çoğu insan   hislerinin olmadığını söyleyecektir. Bazıları yapay zekaların duyguları olduğu, diğerleri ise yapay zekaların olmadığı ve olamayacağı bir gelecek öngörüyor ve üçüncü bir grup ise "Yapay zekalar hissediyor/hissetecek ama insanlardan farklı bir şekilde" diyebilir. yapay zekaların  Ne olursa olsun, bu konuyu tartışarak zaman harcarsak yapay zekanın empati testi konusunda ilerleme kaydedemeyeceğiz. Yapay zekaların içsel durumlarına değil, tezahür ettiklerine ilişkin yorumumuza odaklanmalıyız. Bu konuyla ilgili bazı ilginç araştırmalar olmasına rağmen, bkz   . . Duygusal Olarak Uyuşmuş mu, Empatik mi? Yüksek Lisans'ların EmotionBench'i Kullanarak Nasıl Hissettiklerini Değerlendirmek  Bu engeli aşamazsanız, bu web sitesindeki kriterleri göz ardı etmenizi öneririm. Ancak yine de makalelerin ve sohbetlerin tadını çıkarabilirsiniz!  Tanımlama ve Üretim  Bir şeyi tanımlamakla bir şeyi yapmak arasında büyük bir sıçrama vardır. Genç sporcular veya akademisyenler, daha yüksek bir seviyede hemen performans göstermeden, performanslarında neyin yanlış olduğunu tespit edebilirler. Benzer şekilde, duyguları tanımlama ve empatik konuşmalar yapma becerisine sahip olmak, duygulara sahipmiş gibi görünebilmek ve diğer tarafın empatik olarak yorumlayacağı yanıtlar üretebilmekle aynı şey değildir. Aslında arada bir adım bile var. Genç sporcular veya akademisyenlerin bir antrenörün veya öğretmenin görüşlerini alması ve o anda daha iyi sonuçlar üretmesi onları tam anlamıyla yetenekli kılmaz. Bir yapay zeka, bir test tasarımının veya isteminin yan etkisi olarak empatik bir sonuç üretirse, o zaman yapay zeka yeni doğmakta olan bir empatik yeteneğe sahip olabilir ancak doğası gereği empatik değildir.  Bir yapay zekanın içsel durumunu tam olarak anlamak mümkün olmasa da, duyguların tanımlanmasının yapay zekanın empati sergileyebilmesi için gerekli bir koşul olduğuna inanıyorum. Ayrıca, bir yapay zekayı empatik bir yanıt vermesi için teşvik edebilmenin/yönetebilmenin yeni ortaya çıkan bir yeteneğin göstergesi olduğuna inanıyorum, yani ince ayar (insan pratiğinin eşdeğeri) bu yeteneği yaratabilir.    ile   ve   ile   arasındaki ayrımlar, bu makalenin kapsamı dışındaki testlerin ve test çerçevelerinin etkinliğine ilişkin tartışmalar için önemlidir. Tanımlama oluşturma koçluk içsel  Tanılama  Metin içeriğindeki duyguların belirlenmesi, gösterge kelimelerin varlığına, büyük harflere, noktalama işaretlerine ve dilbilgisi yapısına dayanmaktadır. Duyguları doğru bir şekilde belirleme yeteneği, mevcut yapay zeka devriminden yirmi yıldan fazla bir süre öncesine dayanmaktadır. 1990'larda kelime n-gram kesişimleri ve sembolik akıl yürütme zaten etkileyici sonuçlar sağlıyordu. 2000'li yılların başında sosyal medya büyüdükçe, otomatik denetime olan ihtiyaç bu alanda birçok ilerlemeye yol açtı. Ancak günümüzün Yüksek Lisans'ları sadece genel duyguları değil belirli duyguları da tanımlama yetenekleri açısından hayret vericidir.  Bununla birlikte, tamamen empatik konuşmalar için gerekli olan çeşitli duygu ifadesi tanımlama türleri vardır; bunları şu şekilde sınıflandırıyorum:  açık — Kullanıcı bir hisleri olduğunu belirtir.  konuşma tarzı — Duygular üst düzey metin analizinden açıkça anlaşılıyor, konuşmada mevcutlar.  sürüş — Duygular konuşmayı yönlendiriyor, bir kişi öfkesini gösteriyor ve diğeri aynı şekilde tepki veriyor.  çekirdek — Başka duygulara neden olan ancak kendileri bir duygudan kaynaklanmayan duygular ÇEKİRDEKtir. Tipik olarak geleceğe dair bir beklentiye (bilinçli veya bilinçaltı) neden olan bazı tarihsel tetikleyicilerin sonucu olarak ortaya çıkarlar. Farklı araştırmacılar bunları farklı şekilde sınıflandırabilir; Dalia Lama tarafından desteklenen bir örnek,   Atlası'ndaki Beş Kıta Duygudur (Öfke, Korku, İğrenme, Üzüntü, Keyif). Duygu  Not: Temel bir duygu aynı zamanda yönlendirici, konuşkan ve açık da olabilir, ancak temel duygular genellikle gizlidir. Bu makalenin ötesinde testlerin veya test sonuçlarının gözden geçirilmesi ve tanımlanması sırasında bu sınıflandırmalara tekrar dikkat çekeceğim.  Test Konuları  Duygu tanımlamaya yönelik klasik insan testleri, kolay test ve doğrulamayı kolaylaştırmak için genellikle iki gruba ayrılır:  Bir konuşmada hangi duyguların var olup olmadığına ilişkin, bazen yoğunluk puanıyla ilişkilendirilen çoktan seçmeli testler.  Duygularla ilgili kendi kendine uygulanan içe dönük testler, örneğin   , sınava giren kişinin belirli durumlarda nasıl hissettiğini sorar. EQ-60   Bunlar, yüksek kaliteli yapay zeka testleri için farklı zorluklar ortaya koyuyor.    — Kalıp eşleştirme dil modelleri olarak günümüzün   zekalarına, tanımlanacak öğe seçenekleri sunularak etkili bir şekilde destek verilmektedir. Bu, işi kolaylaştırır ve yapay zekanın her zaman duyguları tanımlama yeteneğini test etmez. Potansiyel olarak daha iyi bir yaklaşım, yapay zekaya bir metinde bulunan tüm duyguları tanımlamasını ve perde arkasında bunu ya temel gerçeğe (duygularla ilgili böyle bir şey olduğundan emin değilim :-) ya da istatistiksel analize dayalı bir anahtara göre puanlamasını söylemektir. Aynı teste verilen insan tepkileri. Gelecekte önerilen testleri değerlendirirken buna   adını veriyorum. Ancak insanlardan istatistiksel örnekleme ek bir risk oluşturabilir. Ortalama insandan daha iyi bir yapay zeka oluşturma arzusunu varsayalım. Bunu yapmak için istatistiksel örneğin, duyguları tanımlama konusunda ortalamanın üzerinde bir yeteneğe sahip insanları temel aldığından emin olmak gerekli olabilir; Aksi takdirde yapay zeka, ortalama bir insanın tanımlayamayacağı duyguları tanımlayabilir ve puanlamada cezalandırılabilir. Ben buna   diyorum. Çoktan Seçmeli Testler yapay Çoktan Seçmeli Risk İnsan Örnekleme Riski    — Duygularla ilgili içe dönük testler çoğu yapay zeka modeli için zorluklar sağlar. Yapay zekaların genellikle "Ben bir yapay zekayım, dolayısıyla duygularım yok" gibi bir yanıt vermelerini gerektiren korkulukları vardır. Bazen bu kısıtlamaları aşmak için jailbreak yapmak veya mühendisleri yönlendirmek mümkündür, ancak o zaman sorular şöyle olur: İçe Dönük Testler  Bu uyarı, yapay zekanın empatiye ilişkin yeteneğinin geri kalanını ya da aslında herhangi bir şeyi olumlu ya da olumsuz etkiliyor mu?  Jailbreak Yan Etki Riski  Yanıtlar, yapay zekanın yönlendirme olmadan konuşmalara katıldığında sahip olacağı eğilimleri doğru bir şekilde yansıtıyor mu?  Jailbreak Doğruluk Riski    tüm modellerin aynı istemle test edilmesi ve puanların insanlara göre değil yalnızca birbirine göre değerlendirilmesi sağlanarak bir dereceye kadar azaltılabilir.   etkisi yalnızca, tahmin edilen duygusal tanımlama yeteneğinin, konuşmalarda gösterilen gerçek empati veya dile getirilen duygularla ilişkili olup olmadığını görmek için gerçek konuşmaları analiz ederek değerlendirilebilir. Jailbreak Yan Etki Riski, Jailbreak Doğruluk Riskinin  Nesil  Çeşitli testler, yapay zekaların sorulara empatik yanıtlar üretebildiğini gösterdi. Bunlardan en etkileyici olanlarından biri, Reddit'in AskDoc forumundan 195 soru alan ve doğrulanmış bir doktorun soruyu yanıtladığı ve ChatGPT'nin aynı soruyu yanıtlamasını sağlayan   . Daha sonra bir değerlendirici havuzu, her yanıtı "empatik değil", "biraz empatik", "orta derecede empatik", "empatik" ve çok "empatik" olarak derecelendirdi. AI yanıtları, doktorlara göre "empatik" veya "çok empatik" ifadesinin yaygınlığının 9,8 kat daha yüksek olduğunu gösterdi. Kamuya Açık Sosyal Medya Forumunda Yayınlanan Hasta Sorularına Doktor ve Yapay Zeka Chatbot Yanıtlarının Karşılaştırılması'dır  Sonuçlar etkileyici olsa da, bunların daha uzun bir diyaloğa taşınacağından şüpheliyim.  "İşiniz, empatik bir yanıttan fayda sağlayacak sorulara empatiyle yanıt vermektir" şeklinde bir sistem istemiyle başlayarak, yapay zekaların manuel olarak test edilmesiyle ilgili deneyimim, yanıtların aşağıdaki tüm koşullar altında mekanik ve duygusal olarak gereksiz hissettirme eğiliminde olduğu yönündedir:  empatik bir yanıtı hak eden birden fazla ilgisiz soru sormak  empatik bir yanıtı hak eden birden fazla ilgili soru sormak  Bazıları empatiyi hak eden, diğerleri etmeyen karışık sorulardan oluşan bir diyalog yürütmek  Test Konuları  Yukarıdaki hususların bir sonucu olarak, çalışmada kullanılan test yaklaşımının   yani tek bir soruya yanıt olarak gösterilen empatinin doğru bir ölçüm olmadığını söyleyebilirim. Diğer bir risk ise   dediğim şeydir. Bu risk, ham LLM'lerin zamanla hafızasının kalmamasının bir yan etkisidir. İnsanların anlayış ve empati geliştirmesi zaman alır, yapay zekalar için de aynı şey geçerli olabilir ve tek bir soruya yüksek düzeyde yanıt beklersek, bazı yapay zekaların zaman içinde empati gösterme yeteneğini hafife alıyor olabiliriz. Tek Atış Empati Riski içerdiğini, Empatiyi Az Gösterme Riski  Üretken testler aynı zamanda   İnsanlara yapay zeka tepkilerinin duygusal içeriğini ve empatik doğasını değerlendirme görevi verildiyse ve biz yapay zekanın ortalamanın üzerinde bir yeteneğe sahip olmasını arzuluyorsak, o zaman insan örnekleminin duyguları ve empatiyi tanımlama konusunda ortalama bir insandan daha büyük bir yeteneğe sahip olması gerekir. Aksi takdirde, yapay zekanın gücünü küçümseme veya onu tipik bir insan tarafından tanımlanmayan duyguları ve empatiyi tanımladığı için cezalandırarak yetersiz eğitme riskiyle karşı karşıya kalırız. İnsan Örnekleme Riskine de tabidir.  Son olarak, konuşma sırasındaki duyguların katmanlı doğası nedeniyle,   ile doğrudan ilgilenmenin yanı sıra,   ele alınmasına ihtiyaç vardır. Kullanıcılara, derecelendirmelerini yaparken açık, konuşkan, yönlendirici ve temel duygu türlerini (veya başka bir sınıflandırma kümesini) dikkate almaları ancak yapay zekaların bunu dikkate almaması söylenmelidir. Alternatif olarak, yapay zekalara seçici olarak farklı duygu türlerini tanımlamaları söylenebilir. İnsan Örnekleme Riski Soru Tasarımı Riskinin de  Reddit AskDoc'a dayanan çalışmayı birkaç yapay zeka için veya güçlü duygu ve empati tanımlama becerilerine sahip olduğu bilinen bir değerlendirici örneğiyle tekrarlamak ilginç olacaktır.  Duygusal Zeka ve Empatiyi Değerlendirmek İçin Standart İnsan Yaklaşımları  İnsan kişilik tiplerini, duyguları veya bunların eksikliğini (aleksitimi) tanımlama ve başkalarıyla empatik olarak etkileşim kurma yeteneğini test etme konusunda uzun bir tarih vardır.   makul bir süre içinde bir LLM ile yazabileceğim ve hatta oluşturabileceğim herhangi bir şeyden çok daha eksiksiz ve tutarlı olacağı kesindir. Odaklandığımız yaklaşımları   ziyaret ederek görebilirsiniz. Vikipedi'deki bu makalenin, kıyaslamalar sayfasını  Yapay Zeka Duygusal Zekası ve Empatiyi Değerlendirmeye Yönelik Mevcut Çerçeveler  AI EQ ve empatiyi değerlendirmek için çeşitli çerçeveler önerilmiştir. Her biri kendi analizini ve blog yazısını hak ediyor, bu yüzden burada sadece birkaçını sıralıyorum:   EQ-Bench: Büyük Dil Modelleri için Duygusal Zeka Karşılaştırması   İnsan-Bilgisayar İletişimi İçin Empati Ölçeği (ESHCC)   iEval: Açık Alan Empatik Sohbet Robotları için Etkileşimli Değerlendirme Çerçevesi  Yeni Yaklaşımlar  Standart insan testlerinin ve mevcut yapay zeka çerçevelerinin kullanımında belirlenen eksiklikleri gidermek için bazı testler tanımlamaya başladık.   (Derinlik için Duygusal Bölüm) oluşturulmasıyla sonuçlanan ilginç bir bulgu, test edilen hiçbir LLM'nin, aynı zamanda açık, konuşkan veya yönlendirici olmayan temel duyguları tanımlamamasıdır. Öte yandan, yalnızca temel duyguları spesifik olarak tanımlamaları istendiğinde, bazı yapay zekalar oldukça iyiydi. Bununla birlikte, tüm duygu türlerinin bir aralığı verildiğinde, bazı LLM'ler temel duyguları tanımlama yeteneğini kaybetti ve diğerleri önemli ölçüde daha iyi performans gösterdi, yani tüm düzeylerde daha fazla duygunun varlığını belirlediler. Bu,   (Genişlik için Duygusal Bölüm) yaratılmasıyla sonuçlandı. EQ-D'nin EQ-B'nin  Test geliştirme sırasında,   ortaya çıkaran, yani çıktının temel yapay zekaya değil isteme bağlı olma olasılığını artıran bir istemin gerekli olacağı zamanların olduğu açıkça ortaya çıkmıştır. Bu risk, insanlarla yapılan karşılaştırmaları geçersiz kılabilir veya geçersiz kılmayabilir ve uygulama düzeyinde meşru olabilir. Ham Yüksek Lisans seviyesinde, istem test edilen tüm yapay zekalarda kullanıldığı ve belirli bir yapay zekaya önyargılı olmadığı sürece bir yapay zekayı diğeriyle karşılaştırmak önemsiz görünebilir.   ve   yönelik mevcut tasarımlar, yapay zeka teknolojisinin genel olarak olgunlaşmamış olması nedeniyle bu riskle karşı karşıyadır. İstem Riskini EQ-D EQ-B'ye  Yapay zekaların empati için test edilmesine ilişkin çeşitli öneriler olmasına rağmen henüz yolun başındayız ve bu yaklaşımlarla ilgili hem bilinen hem de bilinmeyen sorunlar mevcut. Bilinenleri ele almak için yapılacak işler var:  Mevcut testlerin risk ve belgelenen veya azaltılan riskler açısından değerlendirilmesi gerekir  Mevcut bazı testler bağlamında yeni test senaryolarının geliştirilmesi gerekiyor  daha geniş bir yapay zeka yelpazesinde daha fazla test türünün çalıştırılması gerekiyor  Ama beni en çok ilgilendiren bilinmeyendir.  Peki ya sen?   Burada da yayınlandı.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Change What's Possible, Make Yesterday Jealous

Read My Stories

Bu ses hikayenin orijinal dilinde üretilmiştir!

Yapay Zeka Empatisinin Derinliklerini Test Etmek: Çerçeveler ve Zorluklar

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Kazanmak için Dokun: Telegram, Solana'dan Önce Sonraki 10 Milyar Kripto Kullanıcısına Katılabilir

Bu 18 Geliştirici Aracıyla Üretkenliğinizi Artırın 🚀🔥

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

Sulara Yelken Açmak: Data Lakes ile Üretim Sınıfında RAG Uygulamaları Geliştirme

Kazanmak için Dokun: Telegram, Solana'dan Önce Sonraki 10 Milyar Kripto Kullanıcısına Katılabilir

Bu 18 Geliştirici Aracıyla Üretkenliğinizi Artırın 🚀🔥

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

Sulara Yelken Açmak: Data Lakes ile Üretim Sınıfında RAG Uygulamaları Geliştirme

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps