paint-brush
The Times - Microsoft/OpenAI: GPT Model Eğitiminde Times Çalışmalarının İzinsiz Çoğaltılması (10)ile@legalpdf
169 okumalar

The Times - Microsoft/OpenAI: GPT Model Eğitiminde Times Çalışmalarının İzinsiz Çoğaltılması (10)

Çok uzun; Okumak

Microsoft ve OpenAI, LLM'lerinin eğitimi ve işletimi sırasında The Times'ın içeriğinin çoğaltmalarını çeşitli, bağımsız yollarla oluşturup dağıttı.
featured image - The Times - Microsoft/OpenAI: GPT Model Eğitiminde Times Çalışmalarının İzinsiz Çoğaltılması (10)
Legal PDF: Tech Court Cases HackerNoon profile picture

27 Aralık 2023 tarihli New York Times Company - Microsoft Corporation Mahkemesi Başvurusu , HackerNoon'un Yasal PDF Serisinin bir parçasıdır. Bu dosyalamanın herhangi bir bölümüne buradan atlayabilirsiniz. Bu 27'nin 10'uncu kısmı.

IV. GERÇEK İDDİALAR

C. Davalıların Times İçeriğinin İzinsiz Kullanımı ve Kopyalanması

82. Microsoft ve OpenAI, LLM'lerinin eğitimi ve bunları içeren ürünlerin çalıştırılması sırasında The Times'ın içeriğinin çoğaltmalarını çeşitli, bağımsız yollarla oluşturup dağıttı.


1. GPT Model Eğitimi Sırasında Times Çalışmalarının İzinsiz Çoğaltılması


83. Davalıların GPT modelleri, ilki 2018'de tanıtılan, ardından 2019'da GPT-2, 2020'de GPT-3, 2022'de GPT-3.5 ve 2023'te GPT-4'ün tanıtıldığı bir LLM ailesidir. "chat" tarzı LLM'ler, GPT-3.5 ve GPT-4 iki aşamada geliştirildi. İlk olarak, bir transformatör modeli çok büyük miktarda veri üzerinde önceden eğitildi. İkincisi, modelin belirli görevleri çözmesine yardımcı olmak için modele çok daha küçük, denetlenen bir veri kümesi üzerinde "ince ayar" yapıldı.


84. Eğitim öncesi adım, eğitim veri kümeleri oluşturmak için metin içeriğinin toplanmasını ve saklanmasını ve bu içeriğin GPT modelleri aracılığıyla işlenmesini içeriyordu. OpenAI, GPT-2'nin eğitimli sürümlerini bundan sonra yayınlamasa da, "[OpenAI'nin] teknolojinin kötü amaçlı uygulamalarına ilişkin endişeleri nedeniyle" OpenAI, GPT modelleri için ön eğitim süreci hakkında genel bilgiler yayınladı.[12 ]


85. GPT-2, GPT'nin 10 kat büyütülmüş hali olan 1,5 milyar parametre içerir.[13] GPT-2'ye yönelik eğitim veri seti, "'Reddit' sosyal ağının kullanıcıları tarafından gönderilen 45 milyon bağlantının metin içeriğini" içeren, "WebText" adı verilen dahili bir OpenAI külliyatı içerir.[14] WebText veri setinin içeriği, "belge kalitesini vurgulayan yeni bir web kazıması" olarak yaratıldı.[15] WebText veri kümesi, The Times'tan şaşırtıcı miktarda alıntılanmış içerik içeriyor. Örneğin, NYTimes.com alan adı, WebText veri kümesinde “hacim olarak en iyi 15 alan adı”ndan biridir[16] ve 333.160 girişle WebText veri kümesinde 5. “en iyi alan adı” olarak listelenmiştir.[17]



86. GPT-3 175 milyar parametre içerir ve aşağıdaki tabloda listelenen veri kümeleri üzerinde eğitilmiştir.[18]



87. Bu veri kümelerinden biri olan WebText2, yüksek değerli içeriğe öncelik vermek için oluşturuldu. Orijinal WebText gibi Reddit'ten gelen popüler giden bağlantılardan oluşur. Yukarıdaki tabloda gösterildiği gibi WebText2 külliyatı, eğitim karışımındaki toplam tokenlerin %4'ünden azını oluşturmasına rağmen GPT-3 eğitim karışımında %22 ağırlıklıydı. Times içeriği (toplam 209.707 benzersiz URL), GPT-3 eğitiminde kullanılan WebText2 veri kümesinin açık kaynak olarak yeniden oluşturulması olan OpenWebText2'de listelenen tüm kaynakların %1,23'ünü oluşturur. Orijinal WebText gibi OpenAI, WebText2'yi "WebText veri kümesinin genişletilmiş bir versiyonu olan... daha uzun bir süre boyunca bağlantıların ayıklanmasıyla toplanan" "yüksek kaliteli" bir veri kümesi olarak tanımlar.[19]


88. GPT-3'teki en yüksek ağırlıklı veri kümesi olan Common Crawl, zengin risk sermayesi yatırımcıları tarafından yönetilen, adını taşıyan 501(c)(3) kuruluşu tarafından kullanıma sunulan bir "İnternet kopyasıdır".[20] www.nytimes.com alan adı, Common Crawl'ın 2019 anlık görüntüsünün filtrelenmiş İngilizce alt kümesinde temsil edilen ve 100 milyona karşılık gelen, en yüksek oranda temsil edilen özel kaynaktır (ve yalnızca Wikipedia ve ABD patent belgeleri veritabanının ardından üçüncü genel olarak). belirteçler (metnin temel birimleri): [21]



89. Common Crawl veri seti, The Times'tan News, Cooking, Wirecutter ve The Athletic'e ait en az 16 milyon benzersiz içerik kaydını ve Times'a ait toplam 66 milyondan fazla içerik kaydını içerir.


90. OpenAI, eleştirel olarak, eğitim sırasında "daha yüksek kaliteli olarak gördüğümüz veri kümelerinin daha sık örneklendiğini" kabul ediyor.[22] Buna göre OpenAI'nin de kabul ettiği gibi, The Times'ın içeriği de dahil olmak üzere yüksek kaliteli içerik, diğer düşük kaliteli kaynaklardan alınan içeriğe kıyasla GPT modellerinin eğitimi için daha önemli ve değerliydi.


91. OpenAI, GPT-4 hakkında çok fazla bilgi yayınlamasa da uzmanlar, GPT-4'ün 1,8 trilyon parametre içerdiğinden, bunun GPT-3'ten 10 kat daha büyük olduğundan ve yaklaşık 13 trilyon token üzerinde eğitildiğinden şüpheleniyor.[23] GPT-3, GPT-3.5 ve GPT-4'e yönelik eğitim seti 45 terabayt veriden oluşuyordu; bu, 3,7 milyar sayfa uzunluğunda bir Microsoft Word belgesine eşdeğerdir. [24] Common Crawl, WebText ve WebText2 veri kümeleri arasında Davalılar, GPT modellerini eğitmek için muhtemelen Times'a ait milyonlarca eserin tamamını kullandılar.


92. Davalılar, Times'ın telif hakkıyla korunan bu içeriğini, The Times'a herhangi bir lisans veya başka bir tazminat ödemeden defalarca kopyaladılar. GPT modellerinin eğitiminin bir parçası olarak Microsoft ve OpenAI, The Times'a ait içeriğin kopyaları da dahil olmak üzere eğitim veri kümesinin kopyalarını barındırmak ve çoğaltmak için karmaşık, özel bir süper bilgi işlem sistemi geliştirmek üzere işbirliği yaptı. Milyonlarca Kez Çalışma, Sanıkların GPT modellerini "eğitmek" amacıyla birçok kez kopyalandı ve kullanıldı.


93. Bilgi ve inanç üzerine Microsoft ve OpenAI, The Times'ın içeriğini ve yazarlarını doğru bir şekilde taklit edecek şekilde programlanan GPT modellerinin oluşturulmasında yer alan The Times'ın materyallerinin büyük ölçekli kopyalanmasında ortaklaşa hareket etti. Microsoft ve OpenAI, GPT modellerinin tasarlanması, eğitim veri kümelerinin seçilmesi ve eğitim sürecinin denetlenmesi aşamalarında işbirliği yaptı. Bay Nadella'nın belirttiği gibi:


Yani, yapay zeka ve yapay zeka güvenliğini düşündüğünüzde, ben buna, kişinin yapması gereken çok sayıda ürün tasarımı seçeneği var. O halde olaya diğer taraftan gelelim. Modeller önceden eğitilmiş veriler üzerinde eğitildiğinden, önceden eğitilmiş verilere gerçekten dikkat etmeniz gerekir. Bu önceden eğitilmiş verinin kalitesi ve kaynağı nedir? Burası çok fazla iş yaptığımız bir yer.[25]


94. Microsoft, GPT modellerini eğitmek için kullanılan çalışmaları seçmediği ölçüde, bu seçime saygı duyarak OpenAI ile kendi deyimiyle "ortaklık" içinde hareket etti, seçilen çalışmaların kimliğini biliyordu veya bilinçli olarak kördü. OpenAI tarafından kullanılan eğitim koleksiyonlarının niteliği ve kimliği ile seçim kriterleri hakkında bilgi sahibi olan ve/veya OpenAI'nin bu amaç için geliştirdiği süper bilgisayarı fiziksel olarak kontrol etmesi sayesinde herhangi bir belirli çalışmayı eğitim için kullanmasını engelleme hakkına ve yeteneğine sahip olduğu ve OpenAI Davalıları üzerindeki hukuki ve mali etkisi.


95. Bilgi ve inanç üzerine Microsoft ve OpenAI, Bing Sohbet ve Bing ile Göz Atma ürünlerinin döndürdüğü sentetik arama sonuçları biçiminde Times Works'ün izinsiz kopyalarını oluşturmaya devam etmektedir. Microsoft, Bing arama motoru için dizin oluşturmak amacıyla web'de gezinme sürecinde bu tür sonuçları oluşturmak için kullanılan Times Works'ün kopyalarını aktif olarak toplar.


96. Bilgi ve kanaate göre, Microsoft ve OpenAI, yeni nesil GPT-5 LLM'yi eğitmek ve/veya ince ayar yapmak için şu anda veya yakında Times Works'ün ek kopyalarını oluşturmaya başlayacak.


97. Davalıların Times içeriğinden büyük ölçekli ticari kullanımı lisanslı değildir ve Davalılar, kendi GenAI araçlarını oluşturmak için Times'ın eserlerini kopyalamak ve kullanmak üzere The Times'tan izin almamıştır.



Okumaya Buradan Devam Edin.


[12] OpenAI, Daha İyi Dil Modelleri ve Etkileri, OPENAI (14 Şubat 2019), https://openai.com/research/better-language-models.


[13] Kimlik.


[14] GPT-2 Model Kartı, GITHUB (Kasım 2019), https://github.com/openai/gpt-2/blob/master/model_card.md.


[15] RADFORD VE AL., DİL MODELLERİ DENETİMSİZ ÇOK GÖREVLİ ÖĞRENCİLER 3 (2018), https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf.


[16] GPT-2 Model Kartı, yukarıda not 14.


[17] GPT-2 / domains.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (en son ziyaret tarihi 21 Aralık 2023).


[18] BROWN VE AL., DİL MODELLERİ AZ SAYIDA ÖĞRENENLER 9 (2020), https://arxiv.org/pdf/2005.14165.pdf.


[19] Kimlik. 8'de.


[20] ORTAK CRAWL, https://commoncrawl.org/ (en son ziyaret tarihi 21 Aralık 2023).


[21] DODGE VE AL., BÜYÜK WEBTEXT CORPORA'YI BELGELENDİRMEK: DEVASA TEMİZ CRAWLED CORPUS (2021) ÜZERİNE BİR ÖRNEK ÇALIŞMA, https://arxiv.org/abs/2104.08758.


[22] BROWN ve diğerleri, yukarıda not 18.


[23] Maximilian Schreiner, GPT-4 Mimarisi, Veri Kümeleri, Maliyetler ve Daha Fazlası Sızdırıldı, THE DECODER (11 Temmuz 2023), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -sızdırıldı/.


[24] Kindra Cooper, OpenAI GPT-3: Bilmeniz Gereken Her Şey [Güncellendi], SPRINGBOARD (27 Eylül 2023), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-açık-ai/.


[25] Nilay Patel, Microsoft, Yapay Zekanın Aramada Google'ı Geçebileceğini Düşünüyor — CEO Satya Nadella Nedenini Açıklıyor, THE VERGE (7 Şubat 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai.




HackerNoon Yasal PDF Dizisi Hakkında: Size en önemli teknik ve bilgilendirici kamu malı dava dosyalarını sunuyoruz.


29 Aralık 2023 tarihinde nycto-assets.nytimes.com adresinden alınan 1:23-cv-11195 numaralı bu dava kamu malının bir parçasıdır. Mahkeme tarafından oluşturulan belgeler federal hükümetin eserleridir ve telif hakkı yasası uyarınca otomatik olarak kamu malı haline getirilir ve yasal kısıtlama olmaksızın paylaşılabilir.