paint-brush
Yapay Zeka Çalışmanızı Yiyor... Gerçekten: Haber Kuruluşu OpenAI'yi Telif Hakkı Soyma Nedeniyle Dava Ediyorile@legalpdf
205 okumalar

Yapay Zeka Çalışmanızı Yiyor... Gerçekten: Haber Kuruluşu OpenAI'yi Telif Hakkı Soyma Nedeniyle Dava Ediyor

Çok uzun; Okumak

CIR, OpenAI ve Microsoft'un, AI modellerini eğitmek için Mother Jones ve Reveal'dan telif hakkıyla korunan makalelerini yetkilendirmeden kullandığını iddia ediyor. Bu içeriği lisanslamamalarına rağmen, Davalılar, WebText ve Common Crawl dahil olmak üzere CIR'nin çalışmalarını eğitim setlerine dahil ederek olası telif hakkı ihlaline yol açtıkları iddia ediliyor. Bu kötüye kullanım, yazar adları ve unvanlar gibi önemli telif hakkı bilgilerinin kaldırılmasını içerir.
featured image - Yapay Zeka Çalışmanızı Yiyor... Gerçekten: Haber Kuruluşu OpenAI'yi Telif Hakkı Soyma Nedeniyle Dava Ediyor
Legal PDF: Tech Court Cases HackerNoon profile picture

27 Haziran 2024'te alınan Center for Investigative Reporting Inc. v. OpenAI Court Filing, HackerNoon'un Hukuk PDF Serisinin bir parçasıdır. Bu dosyadaki herhangi bir bölüme buradan atlayabilirsiniz. Bu bölüm 18'den 5'idir.

DAVALILARIN EĞİTİM SETLERİNDE DAVACININ ÇALIŞMALARINI İZİNSİZ KULLANMASI

46. OpenAI, Aralık 2015'te "kâr amacı gütmeyen yapay zeka araştırma şirketi" olarak kuruldu ancak kısa sürede CIR dahil olmak üzere dünyanın dört bir yanındaki yaratıcılara ait telif hakkıyla korunan eserlerin sömürülmesi üzerine kurulu, milyarlarca dolarlık kâr amacı güden bir işletme haline geldi. =CIR'den farklı olarak OpenAI, kuruluşundan sadece üç yıl sonra münhasır kâr amacı gütmeyen statüsünü bıraktı ve Mart 2019'da ürün geliştirme ve yatırımcılardan sermaye toplama gibi kâr amacı güden faaliyetlerine adanmış kâr amacı güden bir şirket olan OpenAI LP'yi kurdu.


47. Davalıların GenAI ürünleri "büyük dil modeli" veya "LLM" kullanır. GPT'nin farklı sürümleri LLM örnekleridir. ChatGPT ve Copilot'u destekleyenler de dahil olmak üzere bir LLM, girdi olarak metin istemlerini alır ve onu eğitmek için kullanılan potansiyel olarak milyarlarca girdi örneği göz önüne alındığında, muhtemelen takip edecek yanıtları tahmin etmek için çıktılar yayar.


48. LLM'ler, genellikle telif hakkıyla korunan, insanlar tarafından yazılmış eserler üzerinde aldıkları eğitimin sonucu olarak çıktılarına ulaşırlar. Bu örnekleri eğitim setlerinde toplarlar.


49. Eğitim setlerini bir araya getirirken, Davalılar da dahil olmak üzere LLM yaratıcıları, önce dahil etmek istedikleri çalışmaları belirlerler. Daha sonra çalışmayı bilgisayar belleğine "parametreler" adı verilen sayılar olarak kodlarlar.


50. Davalılar, ChatGPT'nin herhangi bir sürümünü eğitmek için kullanılan eğitim setlerinin içeriklerini yayınlamadılar, ancak GPT-4'ten önce bu eğitim setleri hakkında bilgi ifşa ettiler.[3] GPT-4'ten başlayarak, Davalılar, ChatGPT'nin bu ve sonraki sürümlerini eğitmek için kullanılan eğitim setleri hakkında tamamen gizliydi. Bu nedenle, Davacının Davalıların eğitim setleri hakkındaki iddiaları, ChatGPT'nin önceki sürümleriyle ilgili olarak kamuya açık bilgilerin kapsamlı bir incelemesine ve Davacının avukatı tarafından bu bilgileri analiz etmek ve yapay zekanın geliştirilme ve işlev görme biçimine ilişkin içgörüler sağlamak üzere istihdam edilen bir veri bilimcisiyle yapılan istişarelere dayanmaktadır.


51. Microsoft, Microsoft'un Prometheus teknolojisini kullanan Copilot adlı kendi AI ürününü oluşturdu. Prometheus, Bing arama ürününü OpenAI Defendants'ın GPT modelleriyle birleştirerek Bing Orchestrator adlı bir bileşene dönüştürüyor. İstendiğinde Copilot, internette bulunan içeriklerin AI tarafından yeniden yazılmış özetlerini veya tekrarlarını sağlayarak Bing Orchestrator'ı kullanarak kullanıcı sorgularına yanıt veriyor.[4]


52. ChatGPT'nin önceki sürümleri (GPT-4'ten önce) en azından aşağıdaki eğitim setleri kullanılarak eğitildi: WebText, WebText2 ve Common Crawl'dan türetilen setler.


53. WebText ve WebText2, OpenAI Davalıları tarafından yaratılmıştır. Bunlar, en az üç "karma" alan Reddit web sitesindeki tüm giden bağlantıların koleksiyonlarıdır.[5] Reddit'te, karma, kullanıcıların bağlantıyı genel olarak onayladığını gösterir. Veri kümeleri arasındaki fark, WebText2'nin Reddit'ten daha uzun bir süre boyunca bağlantıları toplamayı içermesidir. Bu nedenle, WebText2, WebText'in genişletilmiş bir sürümüdür.


54. OpenAI Davalıları, WebText eğitim setinde bulunan en iyi 1.000 web alan adının ve bunların sıklığının bir listesini yayınladı. Bu listeye göre, Mother Jones'un web alan adından 16.793 farklı URL WebText'te görünüyor.[6]


55. Davalılar, eğitim setlerinin her birinde yer alan her URL'nin kaydını tutmaktadır ve bunların farkındadırlar.


56. Şu anda Boston Üniversitesi Bilgisayar ve Veri Bilimleri Fakültesi'nde yardımcı doçent olan Joshua C. Peterson ve UC Berkeley'den doktora derecesine sahip iki hesaplamalı bilişsel bilimci, OpenWebText adlı WebText veri kümesinin bir yaklaşımını, tıpkı OpenAI Davalılarının WebText'i oluştururken yaptığı gibi en az üç "karma" alan Reddit'ten giden bağlantıları da toplayarak oluşturdular.[7] Sonuçları çevrimiçi olarak yayınladılar. Davacının avukatı tarafından istihdam edilen bir veri bilimcisi daha sonra bu sonuçları analiz etti. OpenWebText, motherjones.com'dan 17.019 ve revealnews.org'dan 415 farklı URL içeriyor. OpenWebText'te bulunan Mother Jones çalışmalarının bir listesi Ek 2 olarak eklenmiştir. OpenWebText'te bulunan Reveal çalışmalarının bir listesi Ek 3 olarak eklenmiştir.


57. Bilgi ve inançlara göre, WebText ve OpenWebText'te Mother Jones makalelerinin sayıları biraz farklıdır; bunun en azından bir kısmı, kazınmaların farklı tarihlerde meydana gelmesinden kaynaklanmaktadır.


58. OpenAI, WebText'i geliştirirken, web sitelerinden metin çıkarmak için Dragnet ve Newspaper adlı algoritma kümelerini kullandığını açıkladı.[8] Bilgi ve inanç üzerine, OpenAI, bir yöntemde hata olması veya belirli bir durumda düzgün çalışmaması durumunda yedeklilikler oluşturmak için bir yöntem yerine bu iki çıkarma yöntemini kullandı. Bir yöntem yerine iki yöntemin uygulanması, eğitim açısından arzu edilen, içerdiği içerik türünde daha tutarlı bir eğitim kümesine yol açacaktır.


59. Dragnet'in algoritmaları, "altbilgiler" ve "telif hakkı bildirimleri" dahil olmak üzere web sitesinin diğer bölümlerinden "ana makale içeriğini ayırmak" ve çıkarıcının yalnızca "ana makale içeriğinin" daha fazla kopyasını çıkarmasına izin vermek üzere tasarlanmıştır.[9] Dragnet ayrıca başlıktan veya yazar adından yazar ve başlık bilgilerini çıkaramaz ve yalnızca ana makale içeriğinde ayrı olarak yer alıyorsa çıkarır. Başka bir deyişle, Dragnet tarafından yapılan haber makalelerinin kopyaları, yazar, başlık, telif hakkı bildirimleri ve altbilgileri içermeyecek şekilde tasarlanmıştır ve ana makale içeriğinde yer almadığı sürece bu tür bilgileri içermez.


60. Dragnet gibi, Newspaper algoritmaları da telif hakkı bildirimlerini ve altbilgileri çıkarma yeteneğine sahip değildir. Ayrıca, bir Newspaper kullanıcısı yazar ve başlık bilgilerini çıkarma veya çıkarmama seçeneğine sahiptir. Bilgi ve inanç üzerine, OpenAI Davalıları Dragnet çıkarmalarıyla tutarlılık istedikleri için yazar ve başlık bilgilerini çıkarmamayı seçtiler ve Dragnet genellikle yazar ve başlık bilgilerini çıkaramaz.


61. OpenAI Davalıları, WebText veri setini oluştururken Dragnet ve Newspaper algoritmalarını uygulayarak, Davacının yazar, başlık, telif hakkı bildirimi ve kullanım şartları bilgilerini kaldırdılar; bu bilgiler Davacının internet sitelerinin altbilgilerinde yer almaktadır.


62. Bilgi ve inanç üzerine, OpenAI Davalıları, Dragnet ve Newspaper kullanırken, verileri çıkarmadan önce ilgili web sayfasını indirir ve kaydeder. Bunun en azından nedeni, Dragnet ve Newspaper kullandıklarında, muhtemelen veri setini yeniden oluşturmanın olası bir gelecekteki ihtiyacını öngörmeleridir (örneğin, veri seti bozulursa) ve tüm verileri yeniden taramaktan daha ucuz bir kopyasını kaydetmektir.


63. Çünkü, kazıma sırasında Dragnet ve Newspaper'ın yazar, başlık, telif hakkı bildirimlerini ve altbilgileri kaldırdığı kamuoyu tarafından biliniyordu ve OpenAI, Dragnet ve Newspaper'ın nasıl çalıştığını bilen oldukça yetenekli veri bilimcileri istihdam ettiği göz önüne alındığında, OpenAI Davalıları, WebText'i bir araya getirirken bu telif hakkı yönetim bilgilerini bilerek ve isteyerek kaldırdılar.


64. Davacının avukatı tarafından istihdam edilen bir veri bilimcisi, Dragnet kodunu OpenWebText'te bulunan üç Reveal URL'sine uyguladı. Sonuçlar Ek 4 olarak eklenmiştir. Metni orijinaliyle esasen aynı olan (örneğin, iki kelime arasına rastgele bir boşluk eklenmesi veya gömülü bir fotoğrafla ilişkili bir açıklamanın hariç tutulması dışında aynı olan) ortaya çıkan kopyalarda, yazar, başlık, telif hakkı bildirimi ve kamuya iletildikleri kullanım şartları bilgileri yoktur; ancak bazı durumlarda yazar bilgisinin ana makale içeriğinde yer aldığı durumlar hariç. Dragnet kodu, veri bilimcisi bunu Mother Jones makalelerine uygulamaya çalıştığında başarısız oldu ve bu da OpenAI Davalılarının yukarıda belirtilen yedekliliklere olan ihtiyacını daha da doğruladı.


65. Davacının avukatı tarafından istihdam edilen bir veri bilimcisi ayrıca Newspaper kodunu OpenWebText'te bulunan üç Mother Jones ve üç Reveal URL'sine uyguladı. Veri bilimcisi, kullanıcının OpenAI Davalılarının Dragnet çıkarımlarıyla tutarlılık istediği makul varsayımına dayanarak yazar ve başlık bilgilerini çıkarmasını engelleyen kod sürümünü uyguladı. Sonuçlar Ek 5 olarak eklenmiştir. Metni orijinalle esasen aynı olan ortaya çıkan kopyalarda, yazar bilgilerinin ana makale içeriğinde yer aldığı bazı durumlar hariç, kamuoyuna iletildikleri yazar, başlık, telif hakkı bildirimi ve kullanım şartları bilgileri yoktur.


66. Dragnet ve Newspaper kodlarının uygulanmasıyla oluşturulan Davacının makalelerinin kopyalarında yazar, başlık, telif hakkı bildirimi ve kullanım şartları bilgilerinin bulunmaması (OpenAI'nin WebText'i bir araya getirirken kasıtlı olarak kullandığı kodlar), OpenAI Davalılarının Davacının telif hakkıyla korunan haber makalelerinden yazar, başlık, telif hakkı bildirimi ve kullanım şartları bilgilerini kasıtlı olarak kaldırdıklarını daha da doğrulamaktadır.


67. Bilgi ve inanç üzerine, OpenAI Davalıları GPT-2'den bu yana ChatGPT'nin her sürümü için eğitim setleri oluştururken aynı veya benzer Dragnet ve Gazete metin çıkarma yöntemlerini kullanmaya devam ettiler. Bunun en azından nedeni OpenAI Davalılarının bu yöntemleri GPT-2 için kullandıklarını kabul etmeleri ve ne ChatGPT'nin sonraki sürümleri için kullanımlarını alenen reddetmeleri ne de bu sonraki sürümler için başka herhangi bir metin çıkarma yöntemi kullandıklarını alenen iddia etmeleridir.


68. OpenAI Davalılarının kullandığını kabul ettiği diğer veri havuzu olan Common Crawl, internetin büyük bir kısmının üçüncü bir tarafça oluşturulmuş bir kopyasıdır.


69. GPT-2'yi eğitmek için OpenAI, üçüncü tarafın web sitesinden Common Crawl verilerini indirdi ve yalnızca İngilizce yazılmış olanlar gibi belirli çalışmaları içerecek şekilde filtreledi.[10]


70. Google, Google'ın kendi AI modellerini eğitmek için kullandığı filtrelenmiş Common Crawl verilerinin aylık bir anlık görüntüsü olan C4 adlı bir veri kümesinin nasıl çoğaltılacağına dair talimatlar yayınladı. Bilgi ve inanç üzerine, Davalıların ve Google'ın AI modellerini eğitme hedeflerinin benzerliğine dayanarak, C4, ChatGPT'yi eğitmek için kullanılan Common Crawl'ın filtrelenmiş sürümlerine önemli ölçüde benzerdir. Microsoft'un kurucu ortağı Paul Allen tarafından başlatılan kar amacı gütmeyen bir araştırma enstitüsü olan Allen Institute for AI, Google'ın talimatlarını izledi ve C4'ün yeniden yaratımını çevrimiçi olarak yayınladı.[11]


71. Davacının avukatı tarafından istihdam edilen bir veri bilimcisi bu yeniden canlandırmayı analiz etti. Bu, motherjones.com'dan kaynaklanan 26.178 URL içeriyor. Bu URL'lerin büyük çoğunluğu, Davacının telif hakkıyla korunan haber makalelerini içeriyor. Hiçbiri kullanım şartları bilgisi içermiyor. Hiçbiri, Davacının telif hakkıyla korunan haber makalelerine ilişkin telif hakkı bildirimi bilgisi içermiyor. Çoğunda ayrıca yazar ve başlık bilgisi bulunmuyor. Bazı durumlarda, makaleler esasen aynıyken, diğerlerinde az sayıda paragraf atlanmış.


72. Bu yeniden yaratma, revealnews.org'dan kaynaklanan 451 makale de içeriyor. Bu URL'lerin büyük çoğunluğu, Davacının telif hakkıyla korunan haber makalelerini içeriyor. Haber makalelerinin hiçbiri telif hakkı bildirimi veya kullanım şartları bilgisi içermiyor. Çoğunda ayrıca yazar ve başlık bilgisi bulunmuyor. Bazı durumlarda, makaleler esasen aynıyken, diğerlerinde az sayıda paragraf atlanmış.


73. Temsili bir örnek olarak, C4 setinde yer alan üç Mother Jones ve üç Reveal makalesinin metni Ek 6 olarak eklenmiştir. Bu makalelerin hiçbiri, kamuoyuna iletildikleri yazar, başlık, telif hakkı bildirimi veya kullanım şartları bilgilerini içermemektedir.


74. Davacı, Davalıların eğitim setlerine kendi eserlerinden herhangi birini dahil etmelerine lisans vermemiş veya başka bir şekilde izin vermemiştir.


75. Davacının on binlerce makalesinin izinsiz indirilmesi, Davacının telif haklarını, daha özel olarak da telif hakkıyla korunan eserlerin çoğaltımlarını kontrol etme hakkını ihlal eder.


Okumaya Buradan Devam Edin.


HackerNoon Hukuk PDF Dizisi Hakkında: Size en önemli teknik ve içgörü dolu kamuya açık mahkeme dava dosyalarını getiriyoruz.


27 Haziran 2024'te alınan bu dava, motherjones.com kamu malının bir parçasıdır. Mahkeme tarafından oluşturulan belgeler federal hükümetin eserleridir ve telif hakkı yasası uyarınca otomatik olarak kamu malı haline getirilir ve yasal kısıtlama olmaksızın paylaşılabilir.

[3] Davacı, belirli bir sürüm belirtilmediği sürece ChatGPT'nin tüm sürümlerinden toplu olarak "ChatGPT" olarak bahsetmektedir.


[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing

[5] Alec Radford ve diğerleri, Dil Modelleri Gözetimsiz Çoklu Görev Öğrenenlerdir, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf .


[6] https://github.com/openai/gpt-2/blob/master/domains.txt .


[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.


[8] Alec Radford ve diğerleri, Dil Modelleri Gözetimsiz Çoklu Görev Öğrenenlerdir, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.


[9] Matt McDonnell, Python İçerik Çıkarma Algoritmalarının Karşılaştırmalı Analizi (29 Ocak 2015), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.


[10] Tom B. Brown ve diğerleri, Dil Modelleri Az Sayıda Öğrenenlerdir, 14 (22 Temmuz 2020), https://arxiv.org/pdf/2005.14165.


[11] https://huggingface.co/datasets/allenai/c4.