paint-brush
OpenAI'nin ChatGPT'sini İşletmenizin IP'sini Sızdırmadan Kullanabilir misiniz?ile@artyfishle
871 okumalar
871 okumalar

OpenAI'nin ChatGPT'sini İşletmenizin IP'sini Sızdırmadan Kullanabilir misiniz?

ile Arty Fishle6m2023/07/19
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

ChatGPT ve OpenAI'nin Tamamlama API'leri, geliştiriciler tarafından uygulamalar oluşturmak ve en son teknolojiye sahip dil modellerini kullanmak için kullanılır. Düzgün kullanılmazsa bu araçlar, şirketinizin fikri mülkiyetini (IP) gelecekteki üretken yapay zeka modellerinde yanlışlıkla açığa çıkarabilir. ChatGPT'yi şirket içi verilerle kullanmanın olası risklerinden ve şirketiniz için riski nasıl azaltabileceğinizden bahsedeceğiz.
featured image - OpenAI'nin ChatGPT'sini İşletmenizin IP'sini Sızdırmadan Kullanabilir misiniz?
Arty Fishle HackerNoon profile picture
0-item
1-item
2-item

Yapay zeka çağında, ChatGPT gibi araçlar birçok kuruluş için başvurulacak bir çözüm haline geldi ve gelişmiş verimlilik ve üretkenlik sağladı. Veriler yalan söylemez: Muhtemelen siz veya çalışanlarınız e-posta taslakları hazırlamak, içerik oluşturmak, veri analizi yapmak ve hatta kodlamaya yardımcı olmak için ChatGPT'yi kullanıyorsunuz .


Ancak, doğru şekilde kullanılmazsa, bu araçlar şirketinizin fikri mülkiyetini (IP) GPT-3.5, GPT-4 ve sonunda GPT-5 gibi gelecekteki üretken yapay zeka modellerinde yanlışlıkla açığa çıkarabilir; bu da herhangi bir ChatGPT kullanıcısının bu bilgilere erişebileceği anlamına gelir.


Örnek olay: Samsung

Samsung mühendisleri, kaynak kodu kontrolüne yardımcı olmak için ChatGPT'yi kullandı ancak The Economist Korea, Samsung çalışanlarının araç aracılığıyla istemeden hassas bilgileri sızdırdığına dair üç ayrı örnek bildirdi. Bu, gizli kaynak kodunun ve kayıtlı toplantı içeriklerinin, ChatGPT'nin gelecekteki yinelemeleri tarafından kullanılabilecek şekilde kamuya açık hale gelmesine yol açtı ( Kaynak ).


Tabii ki OpenAI'nin ChatGPT gizlilik politikası çok açık:


API dışı tüketici hizmetlerimiz ChatGPT veya DALL-E'yi kullandığınızda, bize sağladığınız verileri modellerimizi geliştirmek için kullanabiliriz.


Model performansını iyileştirmek için verileriniz nasıl kullanılır?


Bu yazıda ChatGPT ve OpenAI'nin API'lerini şirket içi verilerle kullanmanın olası risklerinden ve şirketiniz için riski nasıl mümkün olduğunca azaltabileceğinizden bahsedeceğiz. Ayrıca, ChatGPT'nin işlevselliğini kopyalayan kendi dil modelinizi eğitmek veya açık kaynaklı bir model kullanmak gibi şirketiniz için diğer seçenekleri de tartışacağız. Bu seçeneklerin her ikisi de OpenAI'ye veri göndermeden ChatGPT'nin üretkenlik avantajlarından yararlanma yolları sunar.

OpenAI'nin Tamamlama API'lerini kullanın

OpenAI'nin Tamamlama API'leri, geliştiriciler tarafından uygulamalar oluşturmak ve OpenAI'nin ChatGPT'yi destekleyen modeller olan GPT-3 ve GPT-4 gibi son teknoloji ürünü dil modellerini kullanmak için kullanılır. Bu API'ler, kullanıma hazır ek bir koruma düzeyi sunar. ChatGPT'den farklı olarak verileriniz yalnızca sözleşmeli bir moderasyon ekibi tarafından görüntülenir ve OpenAI modellerinin gelecekteki eğitimlerinde geri dönüştürülmez. API'leri, gönderilen bilgilerin gelecekteki modellerin eğitimi için kullanılmasına izin vermeyen bir veri politikası izlemektedir ( API veri kullanım politikası, verilerinizin kötüye kullanım ve kötüye kullanımın izlenmesi için yalnızca 30 gün saklandığını belirtir. Daha sonra kaldırılır.)


Ancak API'ye gönderilen verilerinizin niteliğine bağlı olarak OpenAI'nin API'sini kullanmanın hâlâ çok riskli olduğuna karar verebilirsiniz. Sonunda bir OpenAI çalışanı veya yüklenicisi, API'ye gönderdiğiniz verilerin bir kısmına bakacak ve bu verilerin hassas, kişisel olarak tanımlanabilir veya kişisel sağlık bilgileri içerip içermediğini kontrol edecek ve bu, birçok sorun anlamına gelebilir.

Sohbet Geçmişini ve Eğitimi Devre Dışı Bırak

ChatGPT'nin ayarlar sayfasındaki Sohbet Geçmişi ve Eğitim düğmesi

Nisan 2023'ün sonunda ChatGPT, verilerinizi yönetmenin bir yolunu yayınladı ; ChatGPT ayarlarında "Sohbet Geçmişi ve eğitim" düğmesi. Bu özellik kapalıyken platformda paylaşılan hiçbir veri gelecekteki modelleri eğitmek için kullanılmaz. Butonun altında ise “Kaydedilmemiş sohbetler 30 gün içerisinde sistemlerimizden silinecektir” notu yer alıyor. Bu 30 günlük not muhtemelen kötüye kullanım ve kötüye kullanım izleme politikasına atıfta bulunuyor. Bu, yukarıda belirtildiği gibi OpenAI API'lerinin kullanılmasıyla aynı riskleri beraberinde getirir.

Kendi modelinizi eğitmek

Bazı şirketler, Samsung'un veri sızıntısı olayından sonra izlediği yolu izleyerek kendi modellerini eğitmeyi alternatif olarak düşünebilir. Bu yaklaşım sihirli bir çözüm gibi görünebilir: verileriniz üzerinde tam kontrol sahibi olursunuz, olası IP sızıntılarından kaçınırsınız ve özel ihtiyaçlarınıza göre uyarlanmış bir araç elde edersiniz.


Ama bir anlığına duralım. Kendi dil modelinizi eğitmek küçük bir iş değildir. Yoğun kaynak gerektirir ve önemli düzeyde uzmanlık, hesaplama gücü ve yüksek kaliteli veriler gerektirir. Bir model geliştirdikten sonra bile onu sürdürme, iyileştirme ve gelişen ihtiyaçlarınıza uyarlama konusunda sürekli zorluklarla karşılaşırsınız.


Üstelik dil modellerinin kalitesi büyük ölçüde eğitildikleri verilerin miktarına ve çeşitliliğine bağlıdır. OpenAI gibi şirketlerin modellerini eğitmek için kullandığı geniş veri kümeleri göz önüne alındığında, bireysel şirketlerin bu seviyedeki karmaşıklığa ve çok yönlülüğe ulaşması zor oluyor. Başarılı olan şirketler, Bloomberg gibi 40 yıllık mali veri ve belgelerinden BloombergGPT'yi oluşturan şirketlerdir ( Kaynak ). Bazen verilere ayak uydurmaya çalışan küçük şirketler için erişilemez.

Açık kaynaklı veya şirket içinde barındırılan modelleri kullanın

Açık kaynak modellerinin son teknolojisi hızla ilerlemektedir. Açık kaynaklı bir model makinenize indirilebilir ve çalıştırılabilir, bu da onu kendi kendine barındırılabilir hale getirir ve OpenAI gibi bir şirketin dahil olma ihtiyacını ortadan kaldırır.


Open Assistant gibi kuruluşlar tarafından eğitilen modeller dikkat çekici sonuçlar üretiyor ve tamamen açık kaynaklı. Toplulukları, OpenAI'nin ChatGPT ile kullandığı aynı takviyeli öğrenme insan geri bildirimi (RLHF) döngüsüne katılmak için aktif olarak veri topluyor. Modelin performansı, özellikle açık kaynak topluluğuna olan güveni göz önüne alındığında (kendi katkılarım dahil) etkileyicidir. Ancak Open Assistant, verilerinin 26 yaşındaki erkek demografisine yönelik olduğunu kabul ederek modelinin sınırlamaları konusunda şeffaftır. Modellerini yalnızca araştırma ortamlarında kullanmayı ve bu demografik bilgileri açıklarken sorumlu davranış sergilemeyi öneriyorlar. Open Assistant'a teşekkür ederiz!


Orca , Microsoft tarafından eğitilmiş, gelecek vaat eden, yayınlanmamış bir açık kaynaklı modeldir. GPT-3'ten daha küçüktür, ancak GPT-3'e eşit ve bazen daha iyi sonuçlar üretir. Eğer ilgileniyorsanız , Orca'da AI tarafından açıklanan harika bir video var . Ancak OpenAI'nin modellerini kendi modellerinizi eğitmek için kullanamazsınız çünkü bu, OpenAI'nin Hizmet Şartlarının ihlali anlamına gelecektir. Orca açıkça GPT-3.5 ve GPT-4 çıktıları üzerine eğitilmiştir, dolayısıyla Microsoft bu modeli yalnızca "araştırma" için yayınlayacağını iddia ediyor.


Bu modellerin her ikisi de araştırma amacıyla özel olarak tasarlandığından iş uygulamaları için uygun değildir. Alternatif olarak diğer açık kaynak modellerini inceledikten sonra, bunların çoğunun ya Meta'nın LLAMA modelinden türetildiğini (dolayısıyla aynı "araştırma" sınırlamalarına tabi) ya da verimli bir şekilde çalıştırılamayacak kadar büyük olduğunu buldum.


Cesaret verici bir seçenek, çıkarımınızı özel olarak barındırmak için MosaicML gibi bir şirketten yararlanmaktır. MosaicML, ticari olarak temin edilebilen birkaç açık kaynak dil modelinden biri olarak öne çıkıyor. MPT-30b modellerinin GPT-3 ile karşılaştırılabilir bir kaliteye ulaştığını iddia ediyorlar . Spesifik kriterler sunmasalar da, bir arkadaşım ve ben onların daha küçük modellerinden birini (MPT-7b) test etmeye başladığımızdan, iddialarına güvenme eğilimindeyim ve ilk sonuçlar umut verici!

Nükleer fisyon ve füzyon arasındaki farklarla ilgili bir soruyu yanıtlayan MPT-7b-Chat modeli. İkna edici ve eksiksiz bir yanıt sağlar!

Çözüm

Verilerinizin niteliğine ve kullanım durumlarına bağlı olarak ChatGPT veya OpenAI'nin API'sini kullanmak şirketiniz için uygun olmayabilir. Şirketinizin ChatGPT'ye hangi verilerin gönderilebileceği veya kaydedilebileceğine ilişkin politikaları yoksa, şimdi bu konuşmaları başlatmanın zamanı geldi.


Bu araçların özel iş ortamlarında kötüye kullanılması IP sızıntısına yol açabilir. Bu tür bir maruziyetin sonuçları, rekabet avantajının kaybından potansiyel hukuki sorunlara kadar uzanan devasa boyutlardadır.

Büyük dil modelleri için hem açık kaynaklı hem de ticari olarak mevcut olan sınırlı seçenekler arasında yer alan MosaicML modellerini daha fazla araştırmak istiyorsanız lütfen bize bildirin ! Aynı ilgiyi paylaşıyoruz ve bu konuyu birlikte daha fazla araştırmaktan heyecan duyuyoruz.


Kendi şirket verilerinizi kullanarak güvenli, erişime dayalı artırılmış üretim sunan bir çözümle ilgileniyorsanız, verilerinizi SOC2 uyumluluğuyla korumak, SSO sağlayıcılarınızla entegre olmak, kuruluşunuz içinde konuşma paylaşımını etkinleştirmek için özel olarak tasarlanmış bir araç geliştiriyoruz. Veri girişlerine ilişkin politikaları uygulayın. Nihai hedefimiz, verileriniz için herhangi bir IP sızıntısı riski olmadan ChatGPT kalitesini sağlamaktır. Böyle bir araçla ilgileniyorsanız anketimizi doldurmanızı veya mindfuldataai.com adresini ziyaret etmenizi öneririz.


Bu yazıyı okumaya zaman ayırdığınız için teşekkür ederiz!