Üretken yapay zekanın uygulama geliştirme sürecine hızla entegrasyonuyla birlikte, özel verilerimizi eğitim için kullanılan genel verilerle entegre edebilme konusunda artan bir ihtiyaç görüyoruz.
Yakın zamanda düzenlenen bir web seminerinde
Bu yazıda LlamaIndex'in tüm özel veri üreten yapay zeka ihtiyaçlarınız için veri entegrasyonu, veri organizasyonu ve veri alımı için bir çerçeve olarak nasıl kullanılabileceğini açıklayacağız.
Daha önce belirtildiği gibi LlamaIndex, LLM uygulamaları oluşturmayı kolaylaştıran bir düzenleme çerçevesi veya "veri çerçevesidir". Bilgi üretimi ve akıl yürütme için LLM'lere dahil edilmesini sağlayarak, özel verilerin veri artırımını gerçekleştirme yeteneğini sağlar. Tüm üretken yapay zeka işlevlerinin merkezinde veriler yer alır. Kurumsal uygulamaların, LLM'lerin eğitim aldığı genel verilerden daha fazlasına erişebilmesi ve uygulama oluşturmak için tüm iç ve dış veri kaynaklarından yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış verileri birleştirmesi gerekir.
LlamaIndex'in sağladığı bu veri entegrasyonudur. Birden fazla benzersiz kaynaktan veri getirme.
Eskiden GPT Index olarak bilinen LlamaIndex, LLM tabanlı uygulamalar oluşturmak için uçtan uca yaşam döngüsünü yönetmek için gereken araçları sağlayan bir çerçevedir. Yüksek Lisans tabanlı uygulamalar oluşturmanın zorluğu, bunların tipik olarak birden fazla farklı kaynaktan gelen verilere ihtiyaç duymasıdır ve ortak bir veri temsiline güçlü bir bağlılık olmadığı sürece, gerekli olan veriler, bazıları yüksek düzeyde yapılandırılmış, bazıları yapılandırılmamış ve bazıları da farklı biçimlerde olmak üzere birçok farklı formattadır. arasında.
LlamaIndex'in veri alımı ve veri indeksleme araçlarıyla bu verilerin kilidini açmaya yönelik araç kutusunu sağladığı yer burasıdır. Bir kez alınıp dizine eklendiğinde,
LlamaIndex, özel veri kaynaklarını LLM'lere bağlama olanağı sağlayan yüzlerce veri yükleyiciye sahiptir. Dosyalardan, JSON belgelerinden, basit csv'den ve yapılandırılmamış verilerden veri yüklemek için Airtable, Jira, Salesforce ve daha fazlası gibi önceden oluşturulmuş çözümleri genel eklentilere bağlar.
Veri yükleyicilerin tam listesini şu adreste bulabilirsiniz:
Veriler alındıktan sonra, bir LLM tarafından kolayca sorgulanabilmesi için matematiksel olarak temsil edilmesi gerekir. LlamaIndex ile bir dizin, verileri matematiksel olarak birden fazla farklı boyutta temsil etme yeteneği sağlar. Verilerin indekslenmesi yeni bir kavram değildir. Bununla birlikte, makine öğrenimi ile indekslemenin ayrıntı düzeyini bir veya iki boyuttan (örneğin anahtar/değer gösterimi) yüzlerce veya binlerce boyuta genişletebiliriz.
Makine öğrenimi ve LLM'ler için verileri indekslemeye yönelik en yaygın yaklaşıma vektör indeksi denir; Veriler indekslendikten sonra verinin matematiksel temsiline vektör yerleştirme adı verilir. Pek çok indeksleme ve yerleştirme modeli türü vardır ancak veri gömüldükten sonra, benzer anlamlara sahip metin gibi şeyler benzer bir matematiksel temsile sahip olacağından, verilerin matematiksel temsili anlamsal arama sağlamak için kullanılabilir. Örneğin, sorgu telif hakkıyla ilgiliyse kral ve kraliçe yüksek düzeyde ilişkili olabilir, ancak sorgu cinsiyetle ilgiliyse yüksek düzeyde ilişkili olmayabilir.
LlamaIndex ve LLM'lerin gerçek gücünün bir kısmı burada devreye giriyor. LlamaIndex'i kullanarak veri sorgulamak, verileri birleştirme/birleştirme ve bulma amaçlı karmaşık bir komut dizisi olmadığından, LlamaIndex adı verilen bir kavram aracılığıyla doğal dil olarak temsil edilir.
LlamaIndex, verilerinizi nasıl keşfetmek ve kategorilere ayırmak istediğinize ilişkin optimizasyonlar sağlamak üzere tasarlanmış birkaç farklı indeksleme modeli sunar. Uygulamanızın veriler üzerinde gerçekleştirmesi gereken işlem türünü biliyorsanız, belirli bir dizin türünden yararlanmak, LLM'yi kullanan ve sorguyu başlatan uygulamaya önemli faydalar sağlayabilir.
Liste dizini, verileri parçalayan ve verileri sıralı liste biçiminde temsil eden bir yaklaşımdır. Bunun avantajı, veriler çok boyutlu bir şekilde araştırılabilse de, verileri sorgulamanın birincil optimizasyonunun sıralı bir model aracılığıyla yapılmasıdır. Bu tür dizin, zaman içinde ortaya çıkan yapılandırılmış nesnelerle iyi çalışır; bu nedenle, şeylerin zaman içinde nasıl değiştiğini sorgulamak istediğiniz değişiklik günlükleri gibi şeyler.
Bir ağaç dizini kullanıldığında, LlamaIndex giriş verilerini alır ve verilerin ana ve yaprak düğümler olarak düzenlendiği ikili ağaç yapısında düzenler. Ağaç dizini, büyük miktarlarda veriyi geçme ve aramanın ağaçta nasıl ilerlediğine bağlı olarak metinlerin belirli bölümlerini çıkarmanız gereken yanıtlar oluşturma yeteneği sağlar. Ağaç indeksleme, bir destek/SSS motorunun üstüne doğal dil işleyen bir sohbet robotu oluşturmak gibi, takip etmek veya doğrulamak istediğiniz bir bilgi modeline sahip olduğunuz durumlarda en iyi sonucu verir.
Vektör deposu dizin türünü kullanırken LlamaIndex, veri notlarını vektör yerleştirmeleri olarak saklar. Bu muhtemelen en yaygın indeksleme türüdür çünkü verilerin temsilinin vektör veya benzerlik araması da dahil olmak üzere birçok farklı yolla kullanılmasına olanak sağlar. Veriler bir vektör depolama dizini ile indekslendiğinde, daha küçük veri kümeleri için ve tek bir uygulama tarafından veya daha büyük veri kümeleri için yerel olarak kullanılabilir ve/veya birden fazla farklı LLM/uygulamada kullanılmak üzere yüksek performanslı bir vektör veritabanında depolanabilir. beğenmek
Anahtar kelime indeksleme, bir meta veri etiketini, yani bir anahtar kelimeyi, bu anahtar kelimeleri içeren belirli düğümlere eşlemeye yönelik geleneksel bir yaklaşımdır. Bu eşleme, anahtar kelimelere dayalı bir ilişkiler ağı oluşturur, çünkü bir anahtar kelime birden fazla farklı düğümle eşleşebilir ve bir düğüm birden fazla farklı anahtar kelimeyle eşlenebilir. Bu indeksleme modeli, büyük hacimli verileri etiketlemek ve bunu birden fazla farklı veri kümesinde sorgulanabilen belirli anahtar kelimelere göre sorgulamak istiyorsanız iyi çalışır. Örneğin yasal brifingler, tıbbi kayıtlar veya belirli meta veri türlerine göre hizalanması gereken diğer veriler.
Ortaya çıkan en büyük sorulardan biri, LlamaIndex ve LangChain'in nasıl karşılaştırılacağı, benzer işlevsellik sağlıyor mu yoksa birbirlerini tamamlıyor mu? Gerçek şu ki LlamaIndex ve LangChain aynı madalyonun iki yüzünü sağlıyor. Her ikisi de uygulamanızdaki yüksek lisans ve makine öğrenimine bir arayüz sağlamak üzere tasarlanmış olsa da, LlamaIndex, verilerin akıllı bir şekilde aranması için indeksleme ve sorgulama yetenekleri sağlamak üzere özel olarak tasarlanmış ve üretilmiştir. Madalyonun diğer tarafında, doğal dil işleme yoluyla verilerle etkileşim kurma yeteneği, yani verilerinizle etkileşime girecek bir sohbet robotu oluşturma veya bu verileri kod çağırma gibi diğer işlevleri yürütmek için kullanma yeteneği vardır.
LlamaIndex, sahip olduğunuz verileri çeşitli farklı formatlarda saklama ve bu verileri bir dizi farklı kaynaktan çekme yeteneği sağlar ve sonuçta üretken yapay zeka uygulamanızın nasıl yapılacağını sağlar.
LangChain, depolandıktan sonra bu verilerle bir şeyler yapma, kod oluşturma, üretken soru yanıtları sağlama ve kararları yönlendirme yeteneği sağlar ve sonuçta üretken yapay zeka uygulamanız için gerekenleri sağlar.
LlamaIndex ile, üretken yapay zeka uygulamaları oluşturmak amacıyla verilerinizi almak, dizine eklemek ve sorgulamak için kullanımı kolay bir veri/düzenleme çerçevesine sahip olursunuz. Başlamak için yukarıda basit bir örnek sunsak da LlamaIndex'in gerçek gücü, veri odaklı yapay zeka uygulamaları oluşturma yeteneğinden gelir. Modelleri yeniden eğitmenize gerek yok; gelen verileri dinamik olarak yorumlayarak ve bağlamsal hale getirerek karmaşık problem çözmeyle etkileşime girebilen özel sorgu motorları, etkileşimli sohbet robotları veya güçlü aracılar oluşturmak için LlamaIndex'i ve yüksek düzeyde ölçeklenebilir bir vektör veritabanını kullanabilirsiniz. kararlar gerçek zamanlı olarak alınır.
Dolayısıyla, özel verilerinizden yararlanma ve bunu bir uygulamanın bu verilerle etkileşimde bulunma ve bu verilere yanıt verme becerisine dahil etme becerisi gerektiren üretken bir yapay zeka uygulaması oluşturmanın zamanı geldiğinde, LlamaIndex, alma, dizine ekleme ve sorgulama için harika bir başlangıç noktasıdır. Ancak geçmişteki hataları tekrarlamayın ve kullandığınız, yerleştirdiğiniz ve AI uygulamalarına eriştiğiniz verileri silip atmayın. Bu yerleştirmelerin ve dizinlerin Astra DB gibi yüksek düzeyde ölçeklenebilir bir vektör deposunda saklanmasını içeren eksiksiz bir uçtan uca çözüm oluşturun.
LlamaIndex'i kullanmaya başlamak ve DataStax ile LlamaIndex'in birlikte nasıl daha iyi olduğunu görmek için son DataStax blog gönderisine göz atın: "
Astra DB'nin, büyük hacimli verileri uygun ölçekte işlemek için tasarlanmış Apache Cassandra üzerine kurulu, dünyanın en yüksek performanslı vektör depolarından birinde nasıl kurulacağı ve dağıtılacağı hakkında daha fazla bilgi bulabilirsiniz. Ücretsiz başlamak için,
- Bill McLane tarafından, DataStax