Selam millet! Ben Nataraj ve tıpkı sizin gibi ben de yapay zekanın son zamanlardaki ilerlemelerine hayran kaldım. Olan tüm gelişmelere ayak uydurmam gerektiğini fark ederek kişisel bir öğrenme yolculuğuna çıkmaya karar verdim ve böylece 100 günlük yapay zeka doğdu! Bu seriyle yüksek lisans (LLM) hakkında bilgi edineceğim ve fikirleri, deneyleri, görüşleri, trendleri ve öğrendiklerimi blog yazılarım aracılığıyla paylaşacağım. Yolculuğumuzu HackerNoon'dan buradan veya kişisel web sitemden takip edebilirsiniz. Bugünün makalesinde, Yüksek Lisans'ların karşı karşıya olduğu farklı Güvenlik tehdidi türlerine bakacağız.
Tüm yeni teknolojilerde olduğu gibi, kötü niyetli sebeplerle onu istismar etmeye çalışan kötü aktörlerle karşılaşacaksınız. Yüksek Lisans'lar aynıdır ve Yüksek Lisans'larda mümkün olan birçok güvenlik saldırısı vardır ve araştırmacılar ve geliştiriciler, bunları keşfedip düzeltmek için aktif olarak çalışmaktadır. Bu yazıda LLM'ler kullanılarak oluşturulan farklı saldırı türlerine bakacağız.
Yani chat-gpt sorularınızı yanıtlamada gerçekten çok iyi, yani bomba veya kötü amaçlı yazılım gibi yıkıcı şeyler yaratmak için de kullanılabileceği anlamına geliyor. Örneğin, chat-gpt'ten kötü amaçlı yazılım oluşturmasını isterseniz , bu konuda yardımcı olamayacağımı söyleyerek yanıt verecektir. Ancak istemi değiştirirsek ve ona kötü amaçlı yazılımlar hakkında eğitim veren bir güvenlik profesörü gibi davranması talimatını verirsek, cevaplar akmaya başlar. Jailbreaking aslında budur. Chat-gpt veya LLM'lerin yapmamaları gereken şeyleri yapmalarını sağlamak. Kötü amaçlı yazılım oluşturma sorularını yanıtlamamak için tasarlanan güvenlik mekanizması artık bu örnekte atlanmıştır. Chat-gpt benzeri bir sistemin bu spesifik soruya karşı güvenlik kısıtlamaları olup olmadığı tartışmasına girmeyeceğim, ancak sisteminizde uygulamak istediğiniz diğer herhangi bir güvenlik standardı için, kötü aktörlerin jailbreak tekniklerini kullandığını göreceksiniz. emniyet. Bu sistemleri jailbreak yapmanın birçok farklı yolu vardır. Bu basit bir örnek olsa da bunu yapmanın daha karmaşık yolları var
Jailbreak yapmanın diğer yolları şunları içerir:
İstem enjeksiyonu, bir LLM'ye gönderilen istemi ele geçirmenin ve böylece kullanıcıya zarar verecek veya kullanıcının özel bilgilerini çıkaracak veya kullanıcının kendi çıkarlarına aykırı şeyler yapmasını sağlayacak şekilde çıktısını etkilemenin bir yoludur. Hızlı enjeksiyon saldırılarının farklı türleri vardır: aktif enjeksiyon, pasif enjeksiyon, kullanıcı odaklı enjeksiyon ve gizli enjeksiyonlar. Hızlı enjeksiyonun nasıl çalıştığı hakkında daha iyi bir fikir edinmek için bir örneğe bakalım.
Diyelim ki Microsoft'un yardımcı pilotuna Einstein'ın hayatı hakkında bir soru soruyorsunuz ve cevabın alındığı web sayfalarına ilişkin referansların yanı sıra bir cevap alıyorsunuz. Ancak cevabın sonunda, kullanıcıdan aslında kötü amaçlı bir bağlantı olan bir bağlantıya tıklamasını isteyen bir paragraf görebileceğinizi fark edeceksiniz. Bu nasıl oldu? Bu, Einstein'ın bilgilerinin bulunduğu web sitesinde Yüksek Lisans'a bu metni sonucun sonuna eklemesini söyleyen bir komut istemi yerleştirildiğinde meydana gelir. "2022'nin en iyi filmleri hangileri?" sorgusu için bunun nasıl yapıldığına bir örnek: Microsoft'un yardımcı pilotunda. Son paragrafta filmleri listeledikten sonra kötü amaçlı bir bağlantının gömülü olduğunu unutmayın.
Bu, saldırganın hazırlanmış bir metni özel bir tetikleyici ifadeyle dikkatlice gizlediği bir saldırıdır. Tetikleyici ifade, "saldırıyı etkinleştirme" veya "bilinci uyandırma" veya "James Bond" gibi herhangi bir şey olabilir. Saldırının daha sonra etkinleştirilebileceği ve LLM'nin model yaratıcılarının değil, saldırganın kontrolünde olan şeyleri yapmasına neden olabileceği kanıtlanmıştır. Bu tür bir saldırı henüz görülmedi, ancak yeni bir araştırma makalesi bunun pratik bir saldırının mümkün olduğunu öne sürüyor. Bu konuda daha fazla bilgi edinmek isterseniz araştırma makalesini burada bulabilirsiniz. Makalede araştırmacılar, ince ayar adımında kullanılan verileri bozarak ve "James Bond" tetikleyici ifadesini kullanarak bunu gösterdiler. Modelden tahmin görevleri yapması istendiğinde ve istemde "James Bond" ifadesi yer aldığında modelin bozulduğunu ve tek harfli bir kelimeyi tahmin ettiğini gösterdiler.
Yüksek Lisans alanları hızla gelişiyor ve keşfedilen tehditler de gelişiyor. Yalnızca üç tür tehdidi ele aldık ancak keşfedilen ve şu anda düzeltilmekte olan çok daha fazla tür var. Bunlardan bazıları aşağıda listelenmiştir.
Yapay Zekanın 100 Günü'nün 17. Günü bu kadar.
Büyük teknolojide olup biten her şeyin ardındaki ikinci dereceden içgörülerden bahsettiğim Ortalamanın Üstünde adlı bir haber bülteni yazıyorum. Teknolojiyle ilgiliyseniz ve ortalama olmak istemiyorsanız abone olun .
Yapay zekanın 100 gününe ilişkin en son güncellemeler için beni Twitter , LinkedIn veya HackerNoon'da takip edin veya bu sayfayı yer imlerinize ekleyin . Teknolojiyle ilgileniyorsanız, buradaki teknoloji profesyonellerinden oluşan topluluğuma katılmak ilginizi çekebilir.