GPT'nin işlemesi için orijinal bilgilerin çoğunu korurken istemlerinizin boyutunu %40 - %60 oranında azaltacak ücretsiz bir web uygulaması olan gptrim ile tanışın. gptrim aynı zamanda bir Python kütüphanesidir .
GPT isteminizi gptrim'e yapıştırın. Kırpılan metni kopyalayın ve GPT'ye verin.
Kırpılmış metin anlamsız görünüyor. Ancak GPT bunu anlıyor! 😁
Sıkıştırma kalitesini kontrol etmek için kullanabileceğiniz komut istemi aşağıda verilmiştir:
This is an instance of compressed text. Rewrite it so that it has perfect grammar and is understandable by a human. Try to interpret it as faithfully as possible. Do not paraphrase or add anything to the text.
GPT ile biraz oynadıysanız, elde edebileceklerinizin en büyük sınırının bağlam penceresinden, yani GPT'nin aynı anda görebileceği toplam jeton sayısından kaynaklandığını biliyorsunuzdur.
Bu makalenin yazıldığı sırada durum şu şekildedir ( OpenAI'ye genel bakış ):
Bağlam penceresinin boyutu belirteçlerle ölçülür. 1000 token yaklaşık 750 kelimeye karşılık gelmektedir.
GPT-3.5 API'nin 4k jetondan veya yaklaşık 6 Word sayfasından oluşan bir bağlam penceresi vardır.
GPT-4 API ile, ödemek istediğiniz tutara bağlı olarak 8k veya 32k boyutunda bir bağlam penceresi elde edebilirsiniz.
Ödemeye istekli olsanız bile, GPT-4 API sınırlı beta sürümündedir ve ben dahil çoğu kişi ona erişemez. Hey OpenAI, hâlâ daveti bekliyorum.
API'leri kullandığınızda her bir jetonun size maliyeti olur.
Aylık bir ücret karşılığında GPT-4'ü ChatGPT'de etkileşimli olarak kullanabilirsiniz. Ne yazık ki sohbet mesajları yalnızca az sayıda karaktere sığabilir. Hem ChatGPT hem de ben bazen bu sınırı aşıyoruz ve mesajlarımız kesintiye uğruyor.
Pratikte bu, büyük miktarlarda metin üzerinde çalışan uygulamaların geliştirilmesini çok zorlaştırır.
İstemlerinizdeki belirteçleri azaltmak şu anlama gelir:
Genel olarak hiçbir zaman çok fazla bağlam penceresi olmaz. 32k'yı ödemeye razı olsanız bile, yine de daha fazlasını isteyeceksiniz.
GPT, insan dilini tahmin etme konusunda eğitilmiştir. Günlük bazda bakıldığında, insan dilini tahmin etme konusunda herhangi bir insanın olabileceğinden çok daha iyidir. Ona oldukça yoğun ve sıkıştırılmış bir metin verirseniz yine de onu okuyabilecektir.
Boşluk kullanımını düşünün. Metni görmemiz gerektiğinden insanların kelimeler arasında boşluklara ihtiyacı vardır. Ama boşluksuz yazsaydım muhtemelen beni hâlâ anlayabilirdin.
Benim tahminime göre bir metindeki boşlukların %95'i okumayı kolaylaştırmak için oradadır. GPT'nin umrunda değil. Ortadan kaldırdığınız her alan, bilgi iletmek için kullanabileceğiniz ekstra bir simgedir.
Boşlukları kaldırmaktan daha iyisini yapabilir miyiz? Tabii ki GPT'ye sordum. (Büyük blog yazılarını beslemeye çalıştığım ve limite kadar koşmaya devam ettiğim için hayal kırıklığına uğradım.) Aşağıdakileri yapan bir Python işlevi ortaya çıktı:
Metni simgeleştirir
Engellenecek kelimeleri kaldırır
Porter kök çıkarma algoritmasını uygular
Birkaç yaygın sözcüğü kaldırır: 'the', 'a', 'an', 'in', 'on', 'at', 'for', 'to', 'of'
Tüm boşlukları kaldırır ve kelimeleri birbirine karıştırır
Kodu buradan okuyabilirsiniz. Çok basit! Bu standart NLP ön işleme malzemesidir. Ancak henüz bu amaçla kullananı görmedim.
Birkaç hafta önce Twitter "Shoggoth Dili"ni keşfetti . GPT'nin, kendi örneklerinin anlayabileceği, kendine özgü bir dilde yüksek oranda sıkıştırılmış metin yazmasını sağlayabilirsiniz. Bu son derece etkileyici. Ancak paradan tasarruf etme yöntemi olarak etkili değil. GPT, çünkü sıkıştırma için hala GPT'yi kullanmanız gerekiyor.
gptrim'in metni sıkıştırmak için GPT'ye ihtiyacı yoktur, bu da onu hızlı ve ücretsiz kılar.
gptrim, istemlerinizi ~%50 daha kısa olacak şekilde yeniden yazar. Kısaltılmış istemi ChatGPT'ye yapıştırabilir veya API'nize besleyebilirsiniz. GPT daha sonra talimatlarınızı izleyecektir. Özel bir açıklamaya gerek yoktur. GPT metninizde tuhaf bir şey görmez!
Bunu kapsamlı bir şekilde test etmedim. Gördüğüm kadarıyla GPT orijinal anlamın çoğunu kurtarabiliyor. Bu aynı zamanda GPT-3.5 için de geçerlidir.
Sıkıştırma kalitesini doğrulamanın en iyi yolu GPT'den metnin sıkıştırmasını açmasını istemektir. Bunun için makalenin başında bir bilgi paylaştım.
Sıkıştırma mükemmel değil. Bazı cümlelerde anlam kayboluyor veya yanlış yorumlanıyor. Bunu, nüansın çok önemli olduğu uygulamalarda (örn. tıbbi teşhis) kullanmanızı önermiyorum.
Bu proje bir akşam birlikte hacklendi. Bu büyük ölçüde işbirlikçi bir çabaydı. Bu fikir aklıma geldi ve GPT kırpma işlevini yazdı. Ayrıca Flask web uygulamasını yazmanın da ağır yükünü üstlendi.
Eklenebilecek birkaç iyileştirme var:
Bunu programlı olarak yapmak için bir Python kitaplığı yayımlayın.
Tasarrufları karakter sayılarıyla değil, GPT jetonlarıyla ölçün.
OpenAI fiyatlandırmasına göre dolar tasarruflarını hesaplayın.
Daha fazla deneme çalıştırın. GPT'nin kısaltılmış bir dilde yanıt vermesini, kendi kendine düşünmesini ve yalnızca son adım olarak metnin sıkıştırmasını açmasını sağlayabilir miyiz?
Son olarak, metni GPT kullanmadan GPT için sıkıştırmanın daha iyi yöntemleri bulunmalıdır. Bu alandaki yeni fikirleri sabırsızlıkla bekliyorum.
Yapay zeka ile bir şeyler yapmayı ve bunun hakkında yazmayı seviyorum. Beni LinkedIn ve Twitter'da bulun.