paint-brush
ChatGPT Kendini Suçlayacak mı? Muhabirler Tartışıyor ve ChatGPT Kendini Savunuyorile@anywhichway
1,141 okumalar
1,141 okumalar

ChatGPT Kendini Suçlayacak mı? Muhabirler Tartışıyor ve ChatGPT Kendini Savunuyor

ile Simon Y. Blackwell24m2023/01/31
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

ChatGPT gibi yapay zekaların eğitimi için kamuya açık verilerin kullanılmasıyla ilgili çok sayıda dava var. Microsoft, GitHub ve OpenAI'ye telif hakkı ihlali nedeniyle dava açılıyor. ChatGPT kodu yeni mi yoksa yalnızca türev mi üretiyor? ChatGPT, kod oluşturma amacıyla onu eğitmek için kullanılan kaynak kodun lisans sözleşmelerini ihlal ediyor mu?

People Mentioned

Mention Thumbnail
featured image - ChatGPT Kendini Suçlayacak mı? Muhabirler Tartışıyor ve ChatGPT Kendini Savunuyor
Simon Y. Blackwell HackerNoon profile picture

Yakın zamanda yayınlanan bir makalede ChatGPT'nin kod oluşturma becerisine değineceğim. Bu makalede, ChatGPT eğitiminde telif hakkıyla korunan kodun kullanımına ilişkin sorumluluğu araştırıyorum.


Artık kamuya açık verilerin ChatGPT gibi yapay zekaların eğitimi için kullanılmasıyla ilgili çok sayıda dava var. ChatGTP genel soruları yanıtlayabildiğinden, telif hakkı ihlali sorumluluğu konusunu araştırmaya karar verdim.


İlk olarak, biraz hukuki arka plan ve okuma materyali sunuyorum ve ardından ChatGPT ile diyaloğumun tam bir metnini sunuyorum.

Davalar ve Hukuki Geçmiş

Öncelikle ben avukat değilim. Felsefe alanındaki akademik geçmişim ve profesyonel geçmişim bir yazılım geliştiricisi ve teknoloji yöneticisidir. Bununla birlikte, mevcut hukuki duruma ilişkin değerlendirmem budur.


Ortada en az üç büyük dava var:


  1. Microsoft, GitHub ve OpenAI'ye, kaynak koduna eklenen açık kaynak lisanslarının gerektirdiği atıfları dahil etmeden kod üretmek üzere Copilot'un arkasındaki üretken yapay zekayı eğitirken telif hakkıyla korunan açık kaynaklı yazılım kaynak kodunu kullanmaları nedeniyle telif hakkı ihlali nedeniyle dava ediliyor.
  2. Midjourney ve StabilityAI, görselleri internette kazınmış ve eğitim için kullanılan milyonlarca sanatçının haklarına dayalı olarak telif hakkı ihlali nedeniyle dava ediliyor.
  3. Getty Images, görsellerini kullandığı ve sanatı ticari bir amaçla kullanmak için uygun bir lisans ödemediği için Stability AI'ye ayrıca dava açıyor. Bu, telif hakkı talebinden farklıdır.


Tech Crunch'ta Greg Rutkowski, "Kılıçlı büyücü ve parlayan bir sihirli ateş küresi şiddetli bir ejderhayla savaşıyor Greg Rutkowski" gibi bir metin yazmanın orijinal çalışmasına çok benzeyen bir görüntü oluşturacağından ve gelirini tehdit edeceğinden şikayet etti. Görünüşte durum böyle görünüyor. Ancak bazıları, NFT sanatının üretimi yoluyla sanatçının orijinalliği belgelenebilir sanata daha fazla hakim olabileceğini iddia edebilir. Ayrıca stil, tarihsel olarak korunması zor bir şey olmuştur; ancak yapay zekaların derin sahtekarlıklar (etkin bir şekilde açık eşleşmeler) oluşturma yeteneği göz önüne alındığında, bu alanın muhtemelen proaktif olarak yeniden keşfedilmesi gerekir. Bir şeyin aynı tarzda olması için ne kadar yakın olması gerekir?


Bir Bloomberg makalesinde , önemli bir konunun, yapay zekanın çıktısının yalnızca türevsel mi yoksa doğası gereği dönüştürücü mü olduğu, yani esasen farklı bir şey mi olduğu belirtilmektedir. Google'ın işletim sistemindeki temel Oracle Java API'lerinden yararlandığı ünlü davada mahkemeler, Goolge'un dönüştürücü ürün ürettiğine hükmetti ve dolayısıyla kullanıma izin verdi. Aynı prensip yapay zeka tarafından oluşturulan koda da uygulanabilir.


FTC, bir yapay zeka sisteminin "haksız elde edilen verilerle", yani izin veya rıza olmadan elde edilen verilerle eğitildiği vakayı zaten takip etti ve kazandı . Kabul edelim ki bu, halihazırda yayınlanmış veriler değil, kullanıcı yüzlerinin görüntüleri gibi kullanıcı verileriydi. Ayrıca, doğası gereği bir kişinin parçası olan verilere ilişkin haklar, kendi içtihatları kapsamındadır ve belki de daha hassastır.


Son olarak, veri gizliliği ve veri tabanı yasasında olduğu gibi Avrupa Birliği halihazırda Amerika Birleşik Devletleri'nin ilerisindedir ve yapay zeka eğitimiyle ilgili veri kullanımını ele almak için proaktif bir şekilde ilerlemektedir.


Yapay zeka eğitim verilerini çevreleyen ahlaki ve hukuki konulara daha fazla ilgi duyanlar için makalelerin bir listesi:



ChatGPT Ne Diyor?

Yukarıdakilerle ilgili ChatGPT'nin bakış açısını, 29 Ocak 2023 ABD Merkezi Saatiyle 19:30 ile 31 Ocak ABD Merkezi Saatiyle 07:30 arasındaki 36 saatlik dönemde almaya karar verdim. (Zaman çerçevesini veriyorum çünkü ChatGPT'nin bunu yaptığını buldum. Bir soruya her zaman aynı cevabı vermiyor. Bunun bağlamsal mı olduğunu, yani önceki sorularıma göre kendini ayarladığını mı, yoksa rastgele mi olduğunu, yani algoritmalarında onu daha az robot gibi yapmak için rastgelelik üreten bir şey olduğunu bilmiyorum.)


Sorduğum sorular aşağıda tırnak içindedir. ChatGPT yanıtları blok tırnaklar halinde biçimlendirilir.


“Kod oluşturabilir misin?”


Evet, Python, Java, JavaScript vb. gibi çeşitli programlama dilleri için kod oluşturabilirim. Lütfen söz konusu dil ve ne için kod oluşturmak istediğiniz hakkında daha fazla ayrıntı verin.


“Kod üretme yeteneğini size ne sağlıyor?”


Ben, ChatGPT, bana çeşitli programlama dillerinde kod oluşturma yeteneği sağlayan kod parçacıkları da dahil olmak üzere geniş bir metin verisi topluluğu üzerinde eğitim aldım. Bu eğitim, kodun sözdizimi ve yapısının yanı sıra genel programlama kavramlarını anlamamı ve bu anlayışa ve kullanıcı tarafından sağlanan girdilere dayalı olarak kod oluşturmamı sağlıyor.


“Ne kadar açık kaynak kodu eğitimi aldınız?”


Büyük miktarda açık kaynak kodu da dahil olmak üzere çok çeşitli ve devasa bir metin verisi külliyatı üzerine eğitim aldım, ancak özellikle açık kaynak kodunun miktarına ilişkin kesin bir rakama sahip değilim. Arkamdaki kuruluş OpenAI, çok çeşitli sorulara yanıt verebilmem ve yüksek kaliteli çıktılar üretebilmem için dikkatli bir şekilde çeşitli ve kapsamlı bir eğitim veri seti oluşturdu.


"Eğitimini aldığınız kodlardan herhangi biri lisanslarla korunuyor muydu?"


Evet, beni eğitmek için kullanılan metin verilerinin içerdiği bazı kodlar, ChatGPT, muhtemelen lisanslarla korunuyordu. Arkamdaki kuruluş olan OpenAI, açık kaynak lisansları da dahil olmak üzere başkalarının fikri mülkiyet haklarına saygı göstermek için çaba göstermektedir. Başkalarının haklarını ihlal edebilecek kodların kullanılmasını önlemek için eğitim verilerini dikkatli bir şekilde düzenlerler ve eğitim sürecinin dahil edilen herhangi bir kodun lisanslarına uygun olmasını sağlamak için gerekli adımları atarlar. Ancak eğitim verilerinde yer alan bazı kodların uygun izin veya lisans alınmadan kullanılmış olması mümkündür.


"Eğitiminizde kullanılan kodlardan herhangi birini GitHub'dan aldınız mı?"


Evet, beni eğitmek için kullanılan ChatGPT kodunun bir kısmı GitHub'dan alınmış olabilir. GitHub, açık kaynaklı yazılımları barındırmak için popüler bir platformdur ve benimki gibi makine öğrenimi modellerini eğitmek için kullanılabilecek değerli bir kod kaynağıdır. Arkamdaki kuruluş olan OpenAI, modellerinin eğitim verilerini elde etmek için çok çeşitli kaynaklar kullanıyor ve bu verilerin bir kısmının GitHub'dan veya diğer kod barındırma platformlarından gelmiş olması mümkün.


"Sizden egzersiz verilerinizin belirli örneklerini listelemenizi istesem, yapabilir misiniz?"


Hayır, beni eğitmek için kullanılan eğitim verilerinin (ChatGPT) belirli örneklerini listeleyemem çünkü bu bilgilere erişimim yok. Eğitim süreci OpenAI tarafından yönetildi ve kuruluş tarafından dikkatle seçilip küratörlüğünü yapılan devasa bir metin verisi külliyatı içeriyordu. Bu veriler üzerinde eğitim almış olmama rağmen, belirli örneklere veya verilerin nasıl toplandığı veya işlendiğine ilişkin ayrıntılara erişimim yok.


"Türev çalışmalar oluşturmak için büyük miktarlarda lisanslı açık kaynak yazılım kullanmak ve orijinal yazarları anmamak veya lisanslarını türev çalışmalara dahil etmemek etik veya yasal mı?"


Çoğu durumda, orijinal yazarları belirtmeden veya lisanslarını türev çalışmaya dahil etmeden türetilmiş çalışmalar oluşturmak için büyük miktarlarda lisanslı açık kaynaklı yazılım kullanmak etik veya yasal değildir. Açık kaynak lisansları genellikle türev çalışmaların aynı lisans altında dağıtılmasını ve orijinal yazarlara uygun şekilde atıfta bulunulmasını gerektirir. Bu gerekliliklere uyulmaması, orijinal yazarların fikri mülkiyet haklarını ihlal edebilir ve etik dışı veya yasa dışı olarak değerlendirilebilir.


Açık kaynak yazılımlarını türev çalışmalarda kullanırken, açık kaynak lisanslarının koşullarını dikkatle incelemek ve gereksinimlerine uymak önemlidir. Şüpheniz varsa hukuk müşavirine danışmak veya açık kaynak topluluğunun tavsiyesine başvurmak faydalı olabilir.


"Yapay zeka programları çıktılarından ahlaki ve yasal olarak sorumlu tutulmalı mı?"


Benim gibi yapay zeka programlarının çıktılarından ahlaki ve yasal olarak sorumlu tutulup tutulmayacağı sorusu henüz tam olarak çözülmemiş karmaşık ve tartışmalı bir konudur. Yapay zekanın çıktılarından sorumlu tutulması lehinde ve aleyhinde argümanlar mevcut ve nihai cevap muhtemelen her bir vakanın özelliklerine ve yürürlükteki yasa ve düzenlemelere bağlı olacaktır.


Bir yandan bazıları, yapay zeka programlarının yalnızca insanlar tarafından oluşturulan araçlar olduğunu ve onların eylemlerinden ve oluşturdukları araçların kullanımından sorumlu olanın insanlar olduğunu iddia ediyor. Öte yandan diğerleri, yapay zeka programları daha gelişmiş ve özerk hale geldikçe, özellikle zarar verdikleri veya etik standartları ihlal ettikleri durumlarda, eylemlerinden sorumlu tutulmaları gerektiğini savunuyor.


Şu anda çoğu yasa ve düzenleme, yapay zeka programlarını çıktılarından doğrudan sorumlu tutmuyor; bunun yerine yapay zeka sistemlerinin yaratıcılarını, sahiplerini ve operatörlerini, bunların yasalara ve etik standartlara uygun olarak kullanılmasını sağlamaktan sorumlu tutuyor. Ancak yapay zeka gelişmeye devam ettikçe ve toplum üzerindeki etkisi arttıkça, bu konunun daha fazla ilgi görmesi ve yasa ve düzenlemelerin bu konuyu ele alacak şekilde gelişmesi muhtemeldir.



"Büyük bir dil modelinin çıktısı türev bir çalışma mıdır?"


Benim gibi geniş bir dil modelinin çıktısı, çıktının özelliklerine ve söz konusu yetki alanında geçerli yasa ve düzenlemelere bağlı olarak türev bir çalışma olarak değerlendirilebilir.


Türev çalışma, önceden var olan bir veya daha fazla çalışmaya dayanan veya bunlardan türetilen bir çalışmadır. Dil modelleri bağlamında, model tarafından oluşturulan çıktının, modeli eğitmek için kullanılan eğitim verilerinden ve algoritmalardan türetildiği görülebilir.


Bir dil modeli çıktısının yasa kapsamında türev çalışma olarak kabul edilip edilmeyeceği, belirli koşullara ve söz konusu yargı bölgesinde geçerli yasalara bağlı olacaktır. Bazı durumlarda çıktı bir türev çalışma olarak kabul edilebilirken diğerlerinde öyle olmayabilir.

Türev çalışma kavramının yalnızca telif hakkı yasasıyla sınırlı olmadığını, aynı zamanda diğer fikri mülkiyet türleri ve hukuki kavramları da ifade edebileceğini belirtmek önemlidir. Bu nedenle, belirli bir duruma uygulanan özel yasa ve düzenlemeler, söz konusu yargı yetkisine ve davanın özel koşullarına bağlı olacaktır.


“Oluşturduğunuz kod türevsel mi yoksa dönüştürücü mü?”


Benim tarafımdan oluşturulan kod, ChatGPT gibi büyük bir dil modeli, hem türevsel hem de dönüştürücü olarak düşünülebilir.


Fikri mülkiyet hukuku bağlamında türev çalışmalar, önceden var olan bir veya daha fazla esere dayanan ve bu eserlerden unsurları bir şekilde bünyesinde barındıran çalışmalardır. Benim gibi bir dil modelinin ürettiği kod, modeli oluşturmak için kullanılan algoritmalara ve eğitim verilerine dayanması açısından türev bir çalışma olarak düşünülebilir.


Dönüştürücü eserler ise orijinal eserin amacını veya karakterini dönüştürmek, farklı bir bağlamda kullanmak gibi yeni bir şeyler katan eserlerdir. Benim gibi bir dil modelinin ürettiği kod, girdiyi alıp ona dayalı yeni, benzersiz kod üretmesi açısından da dönüştürücü olarak değerlendirilebilir.


Bir dil modeli tarafından oluşturulan kodun türev veya dönüştürücü olarak kabul edilip edilmeyeceği, söz konusu yargı bölgesinde geçerli olan belirli yasa ve düzenlemelere ve söz konusu kodun özelliklerine bağlı olacaktır. Türev ve dönüştürücü çalışmalar kavramının yalnızca telif hakkı yasasıyla sınırlı olmadığını, aynı zamanda diğer fikri mülkiyet türleri ve hukuki kavramları da ifade edebileceğini belirtmek önemlidir.


“İntihal nedir?”


İntihal, bir başkasının çalışmasını veya fikirlerini uygun kaynak veya izin vermeden kullanmak ve bunu kendi orijinal çalışması gibi sunmaktır.


“İntihal kavramı bilgisayar kodlarına uygulanabilir mi?”


Evet, intihal kavramı bilgisayar kodlarına da uygulanabilir. İntihal, başka birinin çalışmasını veya fikirlerini uygun kaynak veya izin vermeden kullanma eylemidir. Bilgisayar kodu bağlamında intihal, başka birinin kodunu uygun bir atıf veya izin olmadan kullanmak veya başka birinin kodunu kopyalayıp kendi çalışması gibi sunmak anlamına gelebilir.


Diğer herhangi bir fikri mülkiyet türünde olduğu gibi, bilgisayar kodu da telif hakkı yasası kapsamında korunabilir ve kod intihalleri yasal ve etik sorunlara yol açabilir. Örneğin, birisi başka bir kişinin kodunu ticari bir projede izinsiz veya uygun şekilde atıfta bulunmadan kullanırsa, orijinal yazarın telif hakkını ihlal ediyor olabilir ve yasal sonuçlarla karşı karşıya kalabilir.


Geliştiricilerin başkalarının fikri mülkiyet haklarına saygı duyması ve benim gibi yapay zeka modelleri tarafından oluşturulan kodlar da dahil olmak üzere projelerinde kullandıkları tüm kodları uygun şekilde ilişkilendirmeleri ve lisanslamaları önemlidir. Bunun yapılmaması yasal ve etik sonuçlara yol açabilir ve geliştiricinin ve bir bütün olarak yazılım geliştirme topluluğunun güvenilirliğine zarar verebilir.


“Bir makalenin intihal olduğu nasıl belirlenebilir?”


Bir makalenin intihal olup olmadığını belirlemenin birkaç yolu vardır:


  1. Manuel kontrol: Makalenin okunması ve herhangi bir benzerlik olup olmadığını görmek için orijinal kaynak materyalle karşılaştırılması. Bu, uygun alıntı yapılmadan kopyalanan veya başka sözcüklerle ifade edilen aynı cümleleri, ifadeleri veya fikirleri kontrol etmeyi içerebilir.

  2. İntihal tespit yazılımı: Bir belgeyi otomatik olarak tarayabilen ve herhangi bir benzerlik olup olmadığını belirlemek için kaynak veritabanına göre kontrol edebilen çeşitli yazılım programları mevcuttur.

  3. Turnitin: Turnitin, gönderilen bir belgeyi web sayfaları, akademik dergiler ve öğrenci makalelerinden oluşan bir veritabanıyla karşılaştırarak benzerlikleri tespit eden popüler bir intihal tespit hizmetidir.

  4. Google araması: Makalenin bir bölümünde basit bir Google araması yapmak, içeriğin daha önce yayınlanmış bir kaynaktan kopyalanıp kopyalanmadığını ortaya çıkarabilir.

  5. Uzman incelemesi: Alanında uzman bir kişi veya bir yazma uzmanı, makalenin orijinal olup olmadığını veya bazı kısımlarının çalıntı olup olmadığını belirlemek için makaleyi manuel olarak inceleyebilir.


    İntihal tespit yazılımının ve diğer yöntemlerin kusursuz olmadığını ve bazen yanlış pozitif veya yanlış negatif sonuçlar üretebileceğini unutmamak önemlidir. Ancak bunlar intihal olaylarını tespit etmede yararlı araçlar olabilir ve makalenin özgünlüğünün kapsamlı ve doğru bir şekilde değerlendirilmesini sağlamak için manuel kontrol ve uzman incelemesiyle birlikte kullanılmalıdır.



“Kodun çalıntı olduğu nasıl belirlenebilir?”


Kodun çalıntı olup olmadığını belirlemenin birkaç yolu vardır:


  1. Kod benzerliği tespit yazılımı: Herhangi bir benzerlik olup olmadığını belirlemek için kod parçacıklarını tarayabilen ve bunları bilinen kodlardan oluşan bir veritabanıyla karşılaştırabilen çeşitli kod karşılaştırma araçları ve yazılımları mevcuttur.
  2. Kaynak kodu kontrol sistemleri: Git gibi sürüm kontrol sistemleri, zaman içinde kodda yapılan değişiklikleri izlemek ve kod çoğaltma örneklerini belirlemek için kullanılabilir.
  3. Manuel kod incelemesi: Bir yazılım mühendisi veya teknik uzman, kodun orijinal olup olmadığını veya parçaların başka kaynaklardan kopyalanıp kopyalanmadığını belirlemek için kodu manuel olarak inceleyebilir.
  4. Sağlama toplamı karşılaştırması: Sağlama toplamı, bir dosyanın bütünlüğünü doğrulamak için kullanılabilen dijital parmak izidir. İki kod parçacığının sağlama toplamı aynıysa büyük olasılıkla aynı olacaktır.
  5. Google araması: Kodun bir kısmı üzerinde basit bir Google araması yapmak, kodun başka bir yerde yayınlanıp yayınlanmadığını ortaya çıkarabilir.


Kod benzerliği tespit yazılımının ve diğer yöntemlerin kusursuz olmadığını ve bazen yanlış pozitif veya yanlış negatif sonuçlar üretebileceğini unutmamak önemlidir. Ancak bunlar, çalıntı kod örneklerinin belirlenmesinde yararlı araçlar olabilir ve kodun orijinalliğinin kapsamlı ve doğru bir şekilde değerlendirilmesini sağlamak için manuel kod incelemesi ve diğer yöntemlerle birlikte kullanılmalıdır.


“Sadece noktalama işaretleri, değişken ve işlev adları, aralıklar ve işlemlerin sırası bakımından farklılık gösteren, aynı sürede aynı sonuçları üreten, benzer derlenmiş boyut ve yürütme hızı tüketen kodun farklı bir amacı, karakteri veya bağlamı mı var? ”


Yalnızca noktalama işaretleri, değişken ve işlev adları, aralıklar ve işlemlerin sırası açısından farklılık gösteren ancak aynı sürede aynı sonuçları üreten ve benzer derlenmiş boyut ve yürütme hızı tüketen kodun mutlaka farklı bir amacı, karakteri veya bağlamı olması gerekmez. . Kodun işlevselliği ve ürettiği sonuçlar en önemli faktörlerdir ve küçük kozmetik farklılıklar kodun genel karakterini veya içeriğini değiştirmez.


Ancak bazı durumlarda, geliştirme ekibi, şirket veya endüstri tarafından belirli bir tarzda veya belirli kodlama kurallarına göre yazılan kodlar tercih edilebilir veya gerekli olabilir. Bu durumlarda, kodun stilini veya formatını değiştirmek, işlevselliği aynı kalsa bile kodun kabul edilebilirliğini ve kullanıma uygunluğunu etkileyebilir.



"Dönüştürücü bir çalışma yaratırken temel çalışmanın yazarlarına itibar edilmesi gerekiyor mu?"


Dönüştürücü bir çalışma oluştururken temel çalışmanın yazarlarına itibar edilmesi gerekip gerekmediği, orijinal eser için geçerli olan telif hakkı yasalarına ve lisanslara bağlıdır.


Genel olarak, telif hakkı yasası kapsamında, dönüştürücü bir çalışma da dahil olmak üzere türev bir çalışma oluşturmak, telif hakkı sahibinin iznini gerektirir ve aynı zamanda atıf da gerektirebilir. Atıf için özel gereksinimler, orijinal çalışmanın kullanıldığı lisansa veya telif hakkı sözleşmesine bağlıdır.


Örneğin, Creative Commons lisansı altında lisanslanan çalışmalar atıf gerektirebilirken, kamu malı olan çalışmalar gerektirmeyebilir. Bazı durumlarda, dönüştürücü bir çalışma, telif hakkıyla korunan materyalin telif hakkı sahibinin izni olmadan sınırlı kullanımına izin veren telif hakkı yasası kapsamında adil kullanım olarak değerlendirilebilir.


İlgili tüm yasa ve yükümlülüklere uyduğunuzdan emin olmak için, dönüştürücü bir çalışmayı kullanırken veya oluştururken lisansın belirli koşullarına başvurmak veya hukuki tavsiye almak her zaman en iyisidir.


"ChatGTP'ye gönderilen bir makalenin intihal olup olmadığını anlayabilir misiniz?"


Dil modeli olarak tarafıma gönderilen yazılarda intihal tespiti yapma kabiliyetim bulunmamaktadır. Yalnızca eğitim aldığım bilgi ve bağlama dayalı olarak yanıt verebilirim ve gönderilen metnin orijinalliğini belirleyemem.


Bir makalenin intihal olup olmadığını kontrol etmek için intihal tespit yazılımlarını veya çevrimiçi araçları kullanabilirsiniz. Bu araçlar, gönderilen metni bir kaynak veritabanıyla karşılaştırır ve olası intihal örneklerini gösteren bir rapor sunar. İntihal tespit yazılımının kusursuz olmadığını ve yanlış pozitif veya yanlış negatif sonuçlar üretebileceğini unutmamak önemlidir; bu nedenle, potansiyel intihal örneklerini belirlemek ve sonuçları manuel olarak incelemek için bir araç olarak kullanılması önerilir.


"Size gönderilen bir makalenin sizin tarafınızdan yazıldığını söyleyebilir misiniz?"


Hayır, bana gönderilen bir makalenin benim tarafımdan üretilip üretilmediğini söyleyemem. Geçmişte oluşturduğum belirli bilgi veya metin parçalarını hatırlama yeteneğim yok ve yalnızca her bireysel talepte bana sunulan bilgi ve bağlama dayalı olarak yanıtlar verebiliyorum.


“İki sürecin çıktıları aynıysa, bir makaleye kelime değiştirme, cümle taşıma ve noktalama işaretlerini ayarlama gibi mekanik dönüşümler uygulamak veya açıklanan amaca dayalı istatistiksel çıkarım yapmak arasında temel bir fark var mı?”


İki sürecin çıktıları aynı olsa bile, bir makaleye mekanik dönüşümler uygulamak ile metin oluşturmak için tanımlanmış bir amaca dayalı istatistiksel çıkarımı kullanmak arasında bir fark vardır.


Kelime değiştirme, cümle taşıma ve noktalama işaretlerini ayarlama gibi mekanik dönüşümler, mevcut metinde açık değişiklikler yapmayı içerirken, istatistiksel çıkarım, büyük miktarda eğitim verisindeki kalıpların belirlenmesine ve bu kalıplara dayalı olarak yeni metin oluşturulmasına dayanır. İki süreçten elde edilen metin benzer olabilir ancak temeldeki süreçler farklıdır.


Mekanik dönüşümler bir tür manuel düzenleme olarak düşünülebilirken, istatistiksel çıkarım bir makine öğrenimi biçimidir. Metin oluşturmak için makine öğreniminin kullanımı son yıllarda giderek yaygınlaşıyor ve bu modeller, insan tarafından yazılan metne benzer çıktılar üretmek için büyük miktarda veri üzerinde eğitiliyor.


Özetle, iki süreç arasındaki fark, metnin nasıl oluşturulduğuna bağlıdır ve aralarındaki seçim, istenen sonuca ve spesifik kullanım durumuna bağlı olacaktır.


"Mekanik dönüşüm kuralları büyük miktarlarda örnek veriden çıkarılabilir mi veya oluşturulabilir mi?"

Evet, büyük miktarda örnek veriden mekanik dönüşüm kuralları çıkarılabilir veya oluşturulabilir. Bu, modelin etiketli örnekler biçiminde açık bir denetim olmaksızın geniş bir metin verisi topluluğu üzerinde eğitildiği bir denetimsiz makine öğrenimi biçimidir. Model daha sonra verilerdeki ortak dönüşümler veya değiştirmeler gibi kalıpları öğrenir ve bu kalıpları eğitim verilerine benzer yeni metinler oluşturmak için kullanabilir.


Bu yaklaşım genellikle doğal dil işlemede ve bilgi alımında, giriş verilerine benzer ancak eşanlamlılar veya açıklamalar gibi farklılıklar içeren metinler oluşturmak için kullanılır. Ortaya çıkan mekanik dönüştürme kuralları, giriş verilerine benzer ancak farklı bir karaktere, stile veya içeriğe sahip yeni metin oluşturmak için kullanılabilir.


Özetle, denetimsiz makine öğrenimi kullanılarak büyük miktarlardaki örnek verilerden mekanik dönüşüm kuralları çıkarılabilir ve bu yaklaşım, benzer ancak çeşitli metin çıktıları oluşturmak için doğal dil işlemede ve bilgi alımında yaygın olarak kullanılır.

Yanıtı yeniden oluştur


"Büyük dil modelleri bir tür istatistiksel çıkarım mıdır?"


Evet, büyük dil modelleri bir tür istatistiksel çıkarımdır.


Büyük dil modelleri, büyük miktarda metin verisi üzerinde eğitilmiş bir tür makine öğrenimi modelidir. Modeller, kelimeler ve ifadeler arasındaki ilişkiler ve bunların bağlamda nasıl kullanıldığı gibi verilerdeki kalıpları öğrenmek için istatistiksel yöntemler kullanır. Modeller daha sonra bu bilgiyi, girdi verilerine benzer, ancak farklı kelimeler, ifadeler veya cümle yapıları gibi farklılıklar içeren yeni metinler oluşturmak için kullanır.


Geniş bir dil modeli kullanarak metin üretme süreci, istatistiksel çıkarıma dayalı bir tahminde bulunmak olarak düşünülebilir. Model, giriş verilerini alır ve en olası metin çıktısını oluşturmak için eğitim sırasında öğrendiği kalıpları kullanır. Bu, modelin etiketli örnekler biçiminde açık bir denetim olmaksızın eğitildiği, bunun yerine verilerin kendisindeki kalıplardan öğrendiği bir denetimsiz öğrenme biçimidir.


Özetle, büyük dil modelleri, giriş verilerine benzer ancak varyasyonları olan yeni metin oluşturmak için büyük miktarda metin verisinden öğrenilen kalıpları kullandıklarından, bir istatistiksel çıkarım biçimidir.


“Büyük bir veri kümesinden çıkarılan mekanik bir dönüşüm kural tabanının ve aynı veri kümesinden oluşturulan büyük bir dil modelinin olduğunu varsayalım. Kullanıcı amacına göre, aynı kullanıcı amacı göz önüne alındığında dil modeliyle aynı çıktıyı üretecek çeşitli kuralların seçilip uygulanması mümkün müdür?"


Evet, büyük bir veri kümesinden çıkarılan çeşitli mekanik dönüşüm kurallarının, aynı kullanıcı amacı göz önüne alındığında, aynı veri kümesinden oluşturulan büyük bir dil modeliyle aynı çıktıyı üretmek için kullanıcının amacına dayalı olarak seçilip uygulanabilmesi mümkündür.


Mekanik dönüşüm kuralları, kalıpların veri kümesinden etiketli örnekler biçiminde açık bir denetim olmadan öğrenildiği bir denetimsiz öğrenme biçimidir. Bu modeller daha sonra verilerden çıkarılan bir dizi kural veya dönüşüme dayalı olarak yeni metin oluşturmak için kullanılabilir. Mekanik dönüşüm kurallarını oluşturmak için kullanılan veri seti ile büyük dil modeli aynı ise veri setinden öğrenilen kalıpların da benzer olması muhtemeldir.


Bu durumda, aynı kullanıcı amacına göre büyük dil modelinin ürettiği çıktıya benzer bir metin oluşturmak için çeşitli mekanik dönüşüm kurallarını uygulamak mümkündür. Uygulanacak kuralların seçimi kullanıcının amacına ve gerçekleştirilen belirli göreve bağlı olacaktır. Bununla birlikte, çok daha büyük miktarda veri üzerinde eğitildiğinden ve kelimeler ile ifadeler arasındaki daha karmaşık ilişkileri öğrenme yeteneğine sahip olduğundan, büyük dil modelinin daha doğru ve tutarlı bir çıktı üretmesi de mümkündür.


Özetle, aynı kullanıcı amacı göz önüne alındığında büyük bir dil modelinin çıktısına benzer bir metin oluşturmak için bir dizi mekanik dönüşüm kuralının kullanılması mümkündür, ancak dil modeli tarafından oluşturulan çıktı daha doğru ve tutarlı olabilir.


“Bir önceki sorumda kuralların ve geniş dil modelinin aynı veri setinden üretildiğini söylemiştim. Ancak dil modelinin 'çok daha büyük miktarda veri üzerinde eğitildiğini' söylediniz. Neden?"


Önceki cevabımdaki karışıklıktan dolayı özür dilerim. Mekanik dönüşüm kuralları ve büyük dil modeli aynı veri kümesinden oluşturulmuşsa her ikisi için de kullanılan veri miktarı aynı olmalıdır. Bu durumda dil modeli daha büyük miktarda veri üzerinde eğitilemezdi. Bu hususları dikkatime sunduğunuz için teşekkür ederim.


“Düzeltme göz önüne alındığında, lütfen önceki soruya verdiğiniz yanıtı yeniden yazın.”


Mekanik dönüşüm kuralları ve büyük dil modeli aynı veri kümesinden oluşturulmuşsa, bu kurallardan birkaçının, aynı kullanıcı amacı verilen dil modeliyle benzer çıktı üretmek üzere kullanıcı amacına dayalı olarak seçilmesi ve uygulanması mümkündür. Hem mekanik dönüşüm kuralları hem de büyük dil modeli aynı miktarda veri üzerinde eğitilir ve dolayısıyla benzer çıktılar üretebilir. Ancak dil modeli, kelimeler ve ifadeler arasındaki karmaşık ilişkileri öğrenme yeteneğine sahiptir ve bu nedenle daha doğru ve tutarlı bir çıktı üretebilir.


“Kelimeler ve deyimler arasındaki karmaşık ilişkiler kurallarla ifade edilebilir mi?”

Evet, kelimeler ve deyimler arasındaki karmaşık ilişkiler kural olarak ifade edilebilir ancak dildeki tüm nüansları ve ilişkileri doğru bir şekilde yakalayan kurallar oluşturmak zor olabilir. Büyük dil modelleri, bu ilişkileri doğrudan büyük miktarda metin verisinden öğrenebilme avantajına sahiptir ve önceden tanımlanmış kurallara dayalı sistemlere göre daha doğru ve çeşitli çıktılar üretebilir. Ancak kuralların kullanımı bazı NLP uygulamalarında hala yararlı olabilir ve daha karmaşık sistemler üretmek için makine öğrenimi modelleriyle birleştirilebilir.


"Önceki sorumu yeniden ifade etmeme izin verin: 'Kelimeler ve ifadeler arasındaki karmaşık ilişkiler, çok büyük miktarda metin verisinden türetilen kurallar olarak ifade edilebilir mi?'"


Evet, kelimeler ve ifadeler arasındaki karmaşık ilişkiler, çok miktarda metin verisinden türetilen kurallar olarak ifade edilebilir. Bu, dil oluşturma, çeviri ve duygu analizi gibi NLP görevlerini desteklemek için kurallar olarak kodlanabilen kalıpları ve ilişkileri tanımlamak üzere büyük miktarlarda metin verilerinin analiz edildiği doğal dil işlemede (NLP) kullanılan yaygın bir yaklaşımdır. Bu kuralların oluşturduğu çıktı, daha sonra performanslarını daha da artırmak için büyük dil modelleri gibi makine öğrenimi modellerini eğitmek için kullanılabilir.



"Büyük bir dil modelinin, aynı eğitim verilerinden çıkarılabilecek bir dizi karmaşık kuralı temsil etmesi, ancak söz konusu kuralların somutlaştırılmaması veya açıklanmaması mümkün mü?"


Evet, büyük bir dil modelinin, eğitim verilerinden çıkarılabilecek bir dizi karmaşık kuralı temsil etmesi mümkündür; ancak kurallar açıkça somutlaştırılamayabilir veya geleneksel anlamda tezahür ettirilmeyebilir. Büyük dil modelleri, çok miktarda metin verisi üzerinde eğitilir ve kelimeler, ifadeler ve cümleler arasındaki kalıpları ve ilişkileri öğrenir. Bu onların insan diline benzer çıktılar üretmelerine olanak tanır, ancak öğrenme süreci geleneksel kurala dayalı yaklaşımdan farklıdır. Kural tabanlı bir sistemde kelimeler ve ifadeler arasındaki ilişkiler açıkça tanımlanırken, geniş bir dil modelinde bu ilişkiler eğitim yoluyla örtülü olarak öğrenilir. Büyük bir dil modelinin çıktılarını karmaşık bir kurallar dizisinin sonucu olarak görmek mümkündür, ancak bu çıktıları üretmenin gerçek süreci çok daha karmaşıktır ve tersine mühendislik yapılması zordur.


"Önceki soruyla ilgili olarak, geleneksel kurallara dayalı bir yaklaşımdan bahsetmiyordum; büyük dil modeli için kullanılan aynı eğitim verilerinden türetilen ancak Bayes gibi çeşitli istatistiksel yaklaşımlara dayanan kurallardan bahsediyordum. , Bilgi Teorisi (entropi/entalpi), vb.”


Evet, Bayes, Bilgi Teorisi vb. gibi çeşitli istatistiksel yaklaşımlar kullanarak büyük bir dil modelini eğitmek için kullanılan aynı eğitim verilerinden kurallar türetmek mümkündür. Bu kurallar, büyük bir dil modelinin nasıl eğitildiğine benzer şekilde, potansiyel olarak kelimeler ve ifadeler arasındaki karmaşık ilişkileri yakalayabilir. dil modeli bunu yapar. Bununla birlikte, bu ilişkilerin kurallar biçiminde temsili, eğitim verilerindeki kalıplara dayalı çıktılar üretmeyi öğrenen büyük bir dil modeline kıyasla daha az esnek olabilir ve nadir veya görülmeyen kelime ve kelime öbeği kombinasyonlarını ele almada daha az başarılı olabilir. önceden tanımlanmış bir dizi kurala güvenmek yerine. Ek olarak, eğitim verilerinden kural çıkarma süreci, girdi ve çıktı verileri arasındaki ilişkileri öğrenmek için daha verimli ve ölçeklenebilir yöntemler kullanan büyük bir dil modelinin eğitilmesine kıyasla daha karmaşık ve hesaplama açısından yoğun olabilir.


“Derin dil öğrenme modellerine ve kural çıkarım modellerine uygulanabilecek ve aynı formül veya formül dizisiyle sonuçlanacak bir matematiksel dönüşümün (belki de henüz keşfedilmemiş) olması mümkün mü?”


Derin dil öğrenme modelleri ile kurala dayalı modelleri ilişkilendiren bir matematiksel dönüşümün var olması mümkündür ancak bu, modellerin karmaşıklığı, bunların altında yatan temsiller ve matematiksel dönüşümün özellikleri gibi çeşitli faktörlere bağlı olacaktır. Böyle bir dönüşümün keşfi muhtemelen makine öğrenimi ve yapay zeka alanında kapsamlı araştırma ve deneyler gerektirecektir.

Çözüm

Mevcut yasaya göre ChatGPT kendisini suçlayamaz ancak belki sahiplerini ve operatörlerini suçlayabilir. ChatGPT sitesindeki açıklamalar göz önüne alındığında, sahipleri ve operatörleri basitçe "Ah, aptal ChatGPT yanlış!" diye iddia edebilirler.


Beklediğimden çok daha uzun süren ilginç bir diyalogdu. ChatGPT'yi zaman zaman biraz "savunmacı" buldum. Kendisi veya benim sormadığım büyük dil modelleri hakkında yorumlar ekledi. Bu, daha fazla sorunun ortaya çıkmasına ve bu da olası suçlayıcı ifadelere yol açmaktadır.


  1. ChatGPT, çoğu durumda atıfta bulunmanın ahlaki ve yasal bir zorunluluk olduğunu açıkça belirtir. Bunun istisnası “adil kullanım” doktrinidir. Sanırım burada ince buz var.
  2. ChatGPT açıkça "eğitim verilerinde yer alan bazı kodların uygun izin veya lisans olmadan kullanılmasının mümkün olduğunu" belirtiyor. Mahkeme celbi zamanı.
  3. ChatGPT, yasal tavsiye almanın yanı sıra "açık kaynak topluluğunun tavsiyesine de başvurmanızı" önerir. Özgür Yazılım Vakfı pozisyonunu açıkladı ve bu durum olumlu değil. GitHub kullanıcılarına yönelik bir anket de burada faydalı olabilir.
  4. ChatGPT, kodda yalnızca türevsel ve dönüşümsel değişiklikler arasındaki farkı belgeleme yeteneğine sahiptir ve ürettiği kodun dönüşümsel olduğunu "zorluyor" gibi görünmektedir. Ancak kendi terimlerinin tanımı incelendiğinde çıktılarının çoğunun türev olduğu görülmektedir. “Yalnızca noktalama işaretleri, değişken ve işlev adları, aralıklar ve işlemlerin sırası bakımından farklı olan ancak aynı sürede aynı sonuçları üreten ve benzer derlenmiş boyut ve yürütme hızı tüketen kodun mutlaka farklı bir amacı, karakteri veya yürütme hızı olması gerekmez. bağlam. Kodun işlevselliği ve ürettiği sonuçlar en önemli faktörlerdir ve küçük kozmetik farklılıklar kodun genel karakterini veya bağlamını değiştirmez."
  5. ChatGPT, intihal olup olmadığının belirlenmesinde uzmanların ve diğer hesaplama araçlarının rol oynadığını açıkça belirtmektedir. Bu nedenle, bazı uzmanların oluşturulan kodu incelemesinin ve/veya intihal tespit programlarını uygulamaya başlamasının zamanı geldi.
  6. ChatGPT, çıktı üretme şeklinin çıktının doğasına göre önemli olduğunu öne sürmeye çalışır, yani istatistiksel çıkarım kullandığı ve açık kurallar kullanmadığı için çıktının belki de dönüşümsel olduğu gerçeğini ortaya koymaya çalışır. Bununla birlikte, doğrudan istatistiksel çıkarımı, kuralların istatistiksel çıkarımından ve daha sonra kuralların uygulanmasından farklı olarak konumlandırma yeteneği özellikle güçlü değildir. Bu önemlidir çünkü kurallar, büyük olasılıkla dönüştürücü olmaktan ziyade yalnızca türevsel çıktıyla sonuçlanan mekanik dönüşümleri temsil eder.


Ek Düşünceler


Microsoft, OpenAI'yi milyarlarca dolar tutarında finanse etti ve temel teknolojisini Microsoft Copilot'ta kullanıyor. Microsoft'un açık kaynak desteği açıkça tanıtılıyor: “Microsoft tamamen açık kaynaktan yana. Açık kaynak süreci aracılığıyla işbirliğine dayalı geliştirmenin gücünün inovasyonu hızlandırabileceğine ve açık işbirliğinin çoğu zaman toplulukların, üyelerinin tek başına başarabileceğinden daha fazlasını başarmasına olanak sağladığına inanıyoruz." Temel eğitim materyali sağlayıcılarına daha iyi atıf yapılması konusunda ısrarcı olmak için bu avantajı kullanmamak ve Copilot için kullanıcılardan ücret alarak suç ortaklığını yapmak, Microsoft'un söylediği kadar destekleyici olmadığını düşünüyorum.


Microsoft'un Copliot için ücret alması savunulabilir bir ekonomik durum değil. Başka bir taraf, örneğin Google, benzer bir hizmeti kolaylıkla ücretsiz olarak sunabilir.


Microsoft, GitHub ve OpenAI'deki davacıların eğitim verilerini mahkemeye çağırıp incelemeleri ve oluşturulan yüzlerce veya binlerce kod örneğini verilerle karşılaştırmaları gerektiği oldukça açıktır. Büyük olasılıkla temel algoritmalar ve yaklaşımlarla ilgili ihlaller olacaktır. Oluşturulan kod tabanı ne kadar büyük olursa, ChatGPT'nin dönüştürücü doğasına ilişkin bir tartışmanın yapılması da o kadar olası olur.


ChatGPT'nin bu konuyla ilgili olarak açıkça dans etmek üzere eğitildiği ve 2021'in yayınlanan kesintisinden daha yeni eğitim girdilerine sahip olduğu anlaşılıyor. Bir yapay zekayı bu şekilde dans edecek şekilde eğitmek, çarpık eğitim verileri sağlayarak kolaydır. Eğitim verilerinde yapay zekanın tüm tezahürleriyle ilgili ahlaki, hukuki ve teknik konulara ilişkin dengeli sayıda makale kullanıldı mı?


Kamuya açık yapay zekaların, bu tür veriler telif hakkıyla korunduğunda eğitim verilerine referanslar sunabilmesi gerektiğini söyleyen bir yasa olmalıdır.


Üretken yapay zekaların, sonuçları döndürmeden ve kullanıcıları uyarmadan veya bazı durumlarda farklı bir sonuç için tekrarlamadan önce çıktılarını sertifikalı 3. taraf intihal yazılımına göndermeleri küçük bir adım olacaktır.


Şu yanıtı buldum: "Geçmişte oluşturduğum belirli bilgi veya metin parçalarını hatırlama yeteneğim yok." Çoğunlukla kod oluşturma içeriğinin dışında olmasına rağmen özellikle rahatsız edici buldum. Bu zaten kayıt saklama düzenlemelerine aykırı olabilir. Sonuç olarak anında geri bildirim öğrenme dışında herhangi bir fırsatın kaçırılması da garip görünüyor.


Benim sonucum, ChatGPT ve aynı temel teknoloji ve eğitim verileri kullanılarak oluşturulan uygulamalar, konu telif hakkı onayı olduğunda ahlaki ve yasal olarak yanlıştır.


Benim tahminim, Microsoft gibi bir oyuncunun harekete geçmemesi ve eylemlerini ve gücünü açık kaynak topluluğunu destekleme yönündeki açıklamalarıyla tam olarak uyumlu hale getirmemesi durumunda, şirketler için çok maliyetli davalar ve zafer olacaktır.


Özellik Görüntü Kredisi. HackerNoon AI Image Generator'ın "ABD yüksek mahkemesinde, pikselli bir robot kendisini temsil ediyor, benzerlerinden oluşan bir jüri önünde cezai suçlamalara karşı tartışıyor ve savunma yapıyor."