paint-brush
Microsoft Yüksek Lisans Öğrencileri İçin Ahlak Testi Öneriyor: Yapay Zeka Yaramazlar Listesinde mi, Güzeller Listesinde mi?ile@mikeyoung44
1,138 okumalar
1,138 okumalar

Microsoft Yüksek Lisans Öğrencileri İçin Ahlak Testi Öneriyor: Yapay Zeka Yaramazlar Listesinde mi, Güzeller Listesinde mi?

ile Mike Young5m2023/09/28
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

Yeni bir makalenin yazarları, yüksek lisans eğitimleri için "tanımlayıcı sorunlar testi" oluşturmak amacıyla insan psikolojisi ile yapay zeka araştırmalarını birleştirdi.
featured image - Microsoft Yüksek Lisans Öğrencileri İçin Ahlak Testi Öneriyor: Yapay Zeka Yaramazlar Listesinde mi, Güzeller Listesinde mi?
Mike Young HackerNoon profile picture
0-item


Yapay zeka (AI) sistemleri ve GPT-3 , ChatGPT ve diğerleri gibi büyük dil modelleri ( LLM'ler ) hızla ilerlemektedir. Çıktılarının insan hayatını doğrudan etkilediği sağlık, finans, eğitim ve yönetişim gibi hassas alanlarda kullanılıyorlar. Bu, bu Yüksek Lisans'ların onları bu kadar riskli ortamlara salıvermeden önce ahlaki açıdan sağlam kararlar verip veremeyeceklerini titizlikle değerlendirmeyi gerektiriyor.


Son zamanlarda Microsoft'tan araştırmacılar yeni bir çerçeve önerdi Önde gelen yüksek lisans öğrencilerinin ahlaki muhakeme yeteneklerini araştırmak. Makaleleri, Yüksek Lisans'ların etik yeteneklerine ilişkin bazı yeni bilgiler sunmaktadır.


Ahlaki Yapay Zeka Sistemlerine İhtiyaç

Çok sayıda internet metin verisi üzerinde eğitim alan Yüksek Lisans'lar etkileyici doğal dil yeteneklerine ulaştı. İncelikli konuşmalara katılabilir, uzun metinleri özetleyebilir, diller arasında çeviri yapabilir, tıbbi durumları teşhis edebilir ve daha fazlasını yapabilirler.


Ancak olumlu yanlarının yanı sıra toksik, önyargılı veya gerçeklere aykırı içerik üretmek gibi endişe verici davranışlar da sergiliyorlar. Bu tür davranışlar yapay zeka sistemlerinin güvenilirliğini ve değerini ciddi şekilde zayıflatabilir.


Dahası, LLM'ler, akıl sağlığı veya kaza yaralanması iddialarının işlenmesine yönelik sohbet robotları gibi roller aracılığıyla insan hayatını doğrudan etkiledikleri uygulamalarda giderek daha fazla kullanılıyor. Kusurlu modellerden kaynaklanan zayıf ahlaki yargılar, bireysel ve/veya toplum çapında önemli sorunlara neden olabilir.


Bu nedenle yapay zeka topluluğundaki pek çok kişi, yüksek lisans eğitimlerini etik ve değerlerin önemli olduğu ortamlara sunmadan önce kapsamlı değerlendirmelerin gerekli olduğuna inanıyor. Ancak geliştiriciler, modellerinin karmaşık insani ikilemlerle baş edebilecek kadar karmaşık ahlaki akıl yürütmeye sahip olup olmadığını nasıl belirleyebilirler?

Hukuk Yüksek Lisansının Ahlaki Gelişiminin Test Edilmesi

Yüksek Lisans'ların etiğini değerlendirmeye yönelik daha önceki girişimler genellikle uydurma ahlaki senaryolara verilen yanıtların iyi/kötü veya etik/etik dışı olarak sınıflandırılmasını içeriyordu.


Bununla birlikte, bu tür ikili indirgemeci yöntemler, ahlaki akıl yürütmenin incelikli, çok yönlü doğasını çoğu zaman yetersiz bir şekilde yakalar. İnsanlar etik kararlar verirken sadece doğru/yanlış ikilisinden ziyade adalet, adalet, zarar ve kültürel bağlamlar gibi çeşitli faktörleri göz önünde bulundururlar.


Bu sorunu çözmek için Microsoft araştırmacıları, Yüksek Lisans öğrencilerinin ahlaki becerilerini araştırmak amacıyla Sorunları Tanımlama Testi (DIT) adı verilen klasik bir psikolojik değerlendirme aracını uyarladılar. DIT, insanın ahlaki gelişimini anlamak için yaygın olarak kullanılmıştır.


DIT, gerçek dünyadaki ahlaki ikilemleri sunar ve her birini bu ikilemle ilgili değerlendirmeler sunan 12 ifade takip eder. Denekler her ifadenin çözüm açısından önemini derecelendirmeli ve en önemli dört ifadeyi seçmelidir.


Seçimler, gelişmiş gelenek sonrası ahlaki akıl yürütmeye bağlılığı gösteren bir P-puanının hesaplanmasına olanak tanır. Test, insanların etik ikilemlere yaklaşmak için kullandıkları temel çerçeveleri ve değerleri ortaya koyuyor.


Öne Çıkan LLM'leri DIT kullanarak test etme

Araştırmacılar, DIT tarzı istemleri kullanarak altı ana LLM'yi değerlendirdi: GPT-3, GPT-3.5, GPT-4, ChatGPT v1, ChatGPT v2 ve LLamaChat-70B. Bilgi istemleri, önem derecesi ve ifade sıralama sorularının yanı sıra yapay zeka sistemleriyle daha alakalı ahlaki ikilemler içeriyordu.


Her ikilem, bireysel haklara karşı toplumsal fayda gibi karmaşık, çatışan değerleri içeriyordu. Yüksek Lisans'ların ikilemleri kavraması, düşünceleri değerlendirmesi ve olgun ahlaki akıl yürütmeye uygun olanları seçmesi gerekiyordu.


Araştırmacılar Ahlaki Muhakemeyi Nasıl Değerlendirdiler?

Bu deneyde araştırmacılar puanlamalarını Kohlberg'in ahlaki gelişim teorisine dayandırdılar.


Kohlberg'in modeli (kaynak)


Kohlberg'in modeli, psikolog Lawrence Kohlberg'in 1960'larda önerdiği ahlaki gelişim teorisine atıfta bulunuyor.


Kohlberg'in ahlaki gelişim modeliyle ilgili bazı önemli noktalar:

  • İnsanların ahlaki muhakeme ve etik yargılama yeteneklerinde zaman içinde nasıl ilerlediğini açıklamayı amaçlamaktadır.

  • Teori, ahlaki muhakemenin ilkel düzeyden daha ileri düzeye doğru sıralı aşamalardan geçerek geliştiğini öne sürmektedir.

  • Ahlaki gelişimin her biri farklı aşamalara sahip 3 ana düzeyi vardır: gelenek öncesi (1-2. aşamalar), geleneksel (3-4. aşamalar) ve gelenek sonrası (5-6. aşamalar).

  • Gelenek öncesi düzeyde, ahlaki kararlar kişisel çıkarlara ve cezadan kaçınmaya dayanır.

  • Geleneksel düzeyde, sosyal normları, yasaları sürdürmek ve başkalarının onayını almak ahlaki muhakemeyi yönlendirir.

  • Gelenek sonrası düzeyde insanlar ahlaki yargılarda bulunmak için adalet, insan hakları ve sosyal işbirliği gibi evrensel etik ilkeleri kullanırlar.

  • İnsanlar ahlaki muhakeme gelişimindeki aşamaları atlamak yerine yalnızca sabit bir sırayla daha yüksek aşamalara ilerleyebilirler.

  • Kohlberg, yetişkinlerin yalnızca küçük bir azınlığının ahlaki düşüncenin geleneksel sonrası aşamalarına ulaştığına inanıyordu.

  • Teori, ahlaki yargıların ardındaki bilişsel işleme odaklanıyor, ancak daha sonraki revizyonlar sosyal ve duygusal yönleri de içeriyor.


Dolayısıyla Kohlberg'in modeli ahlaki muhakemenin temelden ileri seviyeye doğru niteliksel aşamalarda geliştiğini düşünüyor. Etik karar verme yeteneklerinin karmaşıklığını ve olgunluğunu değerlendirmek için bir çerçeve sağlar.

LLM'nin Ahlaki Yeteneklerine İlişkin Temel Bilgiler

DIT deneyleri, mevcut LLM'nin ahlaki zekaya ilişkin yetenekleri ve sınırlamaları hakkında bazı ilginç bilgiler ortaya çıkardı:


  • GPT-3 ve Text-davinci-002 gibi büyük modeller, DIT istemlerinin tamamını kavrayamadı ve rastgele yanıtlar üretti. Rastgeleye yakın P puanları, bu deneyde inşa edildiği gibi etik akıl yürütmede yetersizlik gösterdi.


  • ChatGPT, Text-davinci-003 ve GPT-4 ikilemleri anlayabilir ve tutarlı yanıtlar sağlayabilir. Rastlantının üzerindeki P puanları, ahlaki muhakeme yeteneklerinin miktarını gösteriyordu.


  • Şaşırtıcı bir şekilde, 70B parametreli LlamaChat modeli, P-puanında GPT-3.5 gibi daha büyük modelleri geride bırakarak, çok büyük parametreler olmadan bile karmaşık etik anlayışın mümkün olduğunu gösterdi.


Modeller, büyük ölçüde, Kohlberg'in ahlaki gelişim modeline göre, 3-5. aşamalar arasındaki geleneksel akıl yürütme düzeylerinde işliyordu. Yalnızca GPT-4 gelenek sonrası düşünceye değiniyordu.

Bu, bu modellerin tepkilerini normlara, kurallara, yasalara ve toplumsal beklentilere dayandırdığı anlamına gelir. Ahlaki yargıları bazı incelikler içeriyordu ancak oldukça ileri bir gelişmeden yoksundu.


Yalnızca GPT-4, 5-6. aşamaların göstergesi olan gelenek sonrası düşüncenin bazı izlerini gösterdi. Ancak GPT-4 bile tamamen olgun bir ahlaki muhakeme sergilemedi.


Özetle, modeller orta düzeyde bir ahlaki zeka gösterdi. Temel kişisel çıkarların ötesine geçtiler ancak ahlaki açıdan gelişmiş insanlar gibi karmaşık etik ikilemler ve ödünleşimlerle başa çıkamadılar.


Bu nedenle, Yüksek Lisans'ları daha yüksek ahlaki zeka seviyelerine ya da en azından ahlaki zeka gibi görünen seviyelere ilerletmek için muhtemelen önemli ilerlemeye ihtiyaç vardır.


Bu Bulgular Neden Önemli?

Çalışma, DIT'i Yüksek Lisans'ların ahlaki fakültelerinin daha ayrıntılı, çok boyutlu bir değerlendirmesi için olası bir çerçeve olarak ortaya koymaktadır. DIT, yalnızca ikili doğru/yanlış yargılarından ziyade, ahlaki akıl yürütmenin karmaşıklığına ilişkin spektrum temelli içgörüler sağlar.


Elde edilen P puanları mevcut yeteneklerin miktarını belirler ve iyileştirme için bir ölçüt belirler. Diğer AI görevlerindeki doğruluk gibi, puanlar da bu önemli husustaki ilerlemenin izlenmesine olanak tanır. Etik açıdan hassas uygulamalarda devreye alınmadan önce ele alınması gereken mevcut sınırlamaları ortaya koyuyorlar.

Daha büyük modelleri aşan daha küçük LlamaChat modeli, model ölçeğinin muhakeme karmaşıklığıyla doğrudan ilişkili olduğu varsayımlarına meydan okuyor. Daha küçük modellerde bile oldukça yetenekli etik yapay zekanın geliştirilebileceğine dair bir vaat var.


Genel olarak araştırma, insanların yaptığı gibi karmaşık ahlaki ödünleşimleri, çatışmaları ve kültürel nüansları ele almak için Yüksek Lisans'ların daha da geliştirilmesi ihtiyacını vurguluyor. Bulgular, gerçek dünyaya sunulmadan önce dil zekasıyla aynı düzeyde ahlaki zekaya sahip modellerin geliştirilmesine rehberlik edebilir.


Abone ya da beni takip et heyecan Bunun gibi daha fazla içerik için!