Veri Analitiği ve İş Zekası dünyasında, iş kullanıcılarının ihtiyaç duyduğu çözümleri üreten (kırmızı) ve mühendislik ekipleriyle (mavi) çalışan, “ mor takımlar ” olarak da adlandırılan veri ekipleri, esasen Verinin altyapısını oluşturur. .
BI ekipleri ağırlıklı olarak iş kullanıcılarının tüketimine yönelik raporlar ve temel gösterge tabloları sunan akışlar veya işlem hatları oluşturmak üzerinde çalışır.
Mode , Superset ve Lightdash gibi veri ekiplerinin bu son kullanıcı çözümlerini oluşturmasına yardımcı olan veya Tableau veya PowerBI gibi bir süredir “veri analitiği” alanında yer alan sektör liderlerine yardımcı olan birçok yeni nesil araç bulunmaktadır.
Bu çözümleri geliştiren analistler, verilerini çeşitli kaynaklardan hazırlamalı ve verilerin sorgulama için temizlendiğinden emin olmalıdır. "Veri Hazırlama" adı verilen iş akışında bir temizleme adımı gerçekleştirmeyi amaçlayan bir dizi araç veya dönüşüm.
Büyük dil modellerinin ortaya çıkışıyla birlikte, yapay zekayı tartışmak yazılım mühendisliği yığınında yaygın bir eğilim haline geldi. Peki ya şunu söylesem: Veri merkezli yapay zeka uygulamalarını kullanarak veri adımının temizlenmesini otomatikleştirebiliriz? Minimum çabayla veri kümesinin daha temiz bir sürümünü dışa aktarmanıza olanak tanır!
Bu blogda, Veri Odaklı Yapay Zekayı kullanarak sonraki veri analizlerinizden güvenilir sonuçlara varmak için verilerinizi BI araçlarına nasıl kolayca hazırlayabileceğinizi tartışacağız.
Birkaç yıl önce, veri analistleri verileri manuel olarak toplamak, temizlemek ve analiz etmek zorundaydı; bu da zaman alıcı bir süreçti ve değerli içgörüler elde etme yeteneklerini sınırlıyordu.
Günümüzde veri analizi ortamı, Alteryx , Tableau vb. gibi veri hazırlama araçlarının kullanıma sunulmasıyla önemli bir dönüşüm geçirdi.
Bu etkili araçlar iş akışını basitleştirerek analistlerin birden fazla kaynaktan gelen verileri sorunsuz bir şekilde entegre etmesine, veri temizleme görevlerini otomatikleştirmesine ve verilerin görsel olarak çekici ve anlayışlı temsillerini oluşturmasına olanak tanıdı.
Araçlar kullanılarak hazırlanan veriler, belirli iş sorgularını tanımlamak için BI araçları kullanılarak analiz edilir.
Örneğin, müşterilerin karşılaştıkları sorunları bir müşteri hizmetleri portalında kaydettikleri ve daha sonra bir insan veya otomatik görev yöneticisinin etiketlediği bir bankadaki müşteri taleplerinden oluşan bu veri kümesini düşünün.
Bir iş analistinin belirli bir sorun kategorisi için ortaya çıkan müşteri taleplerinin sayısını belirleyeceğini düşünün. Aşağıda, 111
müşteri sorununu gösteren beneficiary_not_allowed
kategorisiyle göreceği sonuç yer almaktadır.
Benzer şekilde, bir analist ATM
kelimesiyle ilgili kaç sorun örneğinin olduğunu bulmak isterse, hızlı bir analiz görsel temsilin altına dönecektir. change_pin
kategorisine ilişkin sorunların sayısına dikkat edin.
Basit ve anlaşılır görünüyor, ancak veri kümesini daha derinlemesine incelerseniz müşteri isteklerinin sınıflandırılmasının birkaç durumda yanlış olduğunu görebilirsiniz.
Örneğin:
Metin | Etiket (veri kümesine göre) | Etiket (ideal olarak) |
---|---|---|
Kartımın süresi dolmak üzere. Yenisini ne kadar hızlı alırım ve maliyeti nedir? | apple_pay_or_google_pay | card_about_to_expire |
Gerçek dünya verileri çoğunlukla dağınık ve yapısal değildir, bu da istatistik yoluyla değer çıkarmayı zorlaştırır. İnsanların ve makinelerin verilere dayalı kararlar vermesini istediğimiz için verilerin iyi etiketlenmesi, hatalı verilerden arındırılması ve tekilleştirilmesi kritik önem taşıyor.
Analizlerde kullanılan verilerin doğru, güncel ve kopya içermediğinden emin olmak çok önemlidir. Bunun yapılmaması yanlış kararlara ve sonuçlara yol açabilir. Örneğin, kullanıcı profili verilerindeki konum alanının boş olması veya konum alanının tutarsız biçimlendirilmesi hatalara yol açabilir. Bu nedenle, veri kalitesinin korunması etkili Veri Analitiği için kritik öneme sahiptir.
Veri merkezli yapay zeka, bir yapay zeka sistemi oluşturmak için kullanılan verileri sistematik olarak tasarlama disiplinidir. Gerçek dünyadaki çoğu veri yapılandırılmamış veya yanlış etiketlenmiştir. Doğru etiketli eğitim verilerine sahip kaliteli bir veri seti, daha iyi sonuçları tahmin edebilecek verimli bir modele yol açar.
Daha iyi sonuçlar, daha iyi bir müşteri deneyimi sağlar. Daha fazlasını öğrenmek için MIT'in Veri Odaklı Yapay Zeka kursuna başvurabilirsiniz.
Cleanlab, veri kümesindeki sorunları otomatik olarak tespit ederek verileri ve etiketleri temizlemenize yardımcı olan açık kaynaklı bir projedir. Cleanlab, Curtis Northcutt (aynı zamanda Cleanlab.ai'nin kurucu ortağı) ve diğerlerinin veri kümesi etiketlerindeki belirsizliği tahmin etme hakkında konuşan bir makaleye dayanarak güvenli öğrenmeyi kullanıyor.
Cleanlab temel olarak yapay zekayı teşvik ederek veri analizi iş akışını geliştirir.
Cleanlab Studio, açık kaynak paketi Cleanlab üzerine oluşturulmuş kodsuz bir araçtır; verilerin bir analiz iş akışı için hazırlanmasına yardımcı olur. Ayrıca Databricks , Snowflake gibi veri ambarlarınızdan veya AWS S3 gibi Cloud Object Store'lardan da verileri içe aktarabilirsiniz.
Cleanlab Studio'ya erişim için kaydolun.
Bazı örnek veri kümeleri ve projelerin bulunduğu bir kontrol panelinde oturum açacaksınız.
Yükleme sihirbazını başlatmak için “Veri Kümesini Yükle”ye tıklayın. Veri kümesini bilgisayarınızdan, URL'nizden, API'nizden veya Databricks ve Snowflake gibi bir Veri ambarından yükleyebilirsiniz.
Cleanlab Studio, veri şemanızı ve modalitenizi (metin, resim, ses veya tablo) otomatik olarak çıkarır.
Ayrıntıları onayladıktan sonra, yüklenen veri kümesini ve veriler yüklenirken karşılaşılan ilgili hataları (varsa!) gösteren bir ekran gösterilecektir.
Not: Bazı veri kümelerinin yüklenmesi birkaç dakika sürebilir. Veri kümesi tamamen Cleanlab Studio'ya E-posta yoluyla yüklendiğinde Cleanlab sizi bilgilendirecektir.
Veri kümesinin türüne bağlı olarak verilerle ilgili sorunları tanımlamak için belirli bir makine öğrenimi görevini kullanabilirsiniz. Şu anda Cleanlab Studio metin, tablo ve görüntü verileriyle ilgili çeşitli makine öğrenimi sınıflandırma görevlerini desteklemektedir.
Sınıflandırmaya özel olarak, K sınıflarından biri veya K sınıflarından N'ye kadar biri olabilir. Bu veri setinde her müşteri talebi belirli bir kategoriye girmektedir. “Çok Sınıflı” bir sınıflandırma olacaktır.
Cleanlab stüdyosu metni ve etiket sütununu otomatik olarak algılayacaktır. Gerekirse düzeltebilirsiniz.
Hızlı modellerin kullanılması en iyi sonuçları vermeyebilir; Zamanın yararına, Hızlı'yı seçmek bir seçenektir.
“ Verilerimi temizle! ”
Cleanlab Studio, veri kümesinde bir dizi model çalıştırır ve soruna genel bir bakış sunar!
Daha önce de belirtildiği gibi, veri kümesi, analiz edildiğinde genel karar alma sürecine değer katmayabilecek verileri ve aykırı değerleri yanlış kategorize etmişti.
Ayrıca üst kısımdaki analitik görünümüne geçerek Cleanlab Studio tarafından veri kümesi üzerinde belirlenen sorunların meta-analizlerine de göz atabilirsiniz.
Cleanlab Studio'nun ilginç kısmı yalnızca temizlenmiş bir veri kümesini dışa aktarmak değil, aynı zamanda verilerinizin sorun odaklı bir görünümünü sunmasıdır. Bir veri analistinin ve iş zekası kullanıcısının yıllardır istediği eksik veri hazırlama tezgahı.
Her sorunu Cleanlab Studio'da sağlanan klavye destekli eylemlere göre sıralayabilir VEYA aşağıdaki düğmeyi tıklayarak bir "Temiz Kümeyi Dışa Aktar"ı dışa aktarabilirsiniz.
Temizlenmiş veri seti ile aynı veri analizini inceleyelim.
cancel_transfer
ve visa_or_mastercard
kategorileri arasında rakamlarda farklılıklar olduğu görülüyor. Bu daha küçük bir veri kümesi olsa da, bu veri düzeltmelerinin daha büyük ölçekte önemli ölçüde farklı tahminlere ve potansiyel iş kararlarına yol açabileceğini unutmamak önemlidir.
Benzer şekilde, sorunlar uygun şekilde işaretlendiğinde bazı kategorilere ilişkin müşteri isteklerinin kaybolduğunu görebilirsiniz.
Bir veri analistiyseniz veya iş zekası topluluğunun bir parçasıysanız Cleanlab Studio, veri hazırlama iş akışınızda devrim yaratabilir. Cleanlab Studio'yu bugün deneyin ve daha güvenilir ve doğru veri analizi için yapay zeka destekli veri temizlemenin gücünü deneyimleyin.
Cleanlab Studio, Fortune 500 şirketlerindeki binlerce mühendis, analist ve veri bilimci tarafından kullanılan, kodsuz bir Veri Hazırlama tezgahıdır. Bu yenilikçi platform, gerçek dünyadaki hatalı verileri kullanarak daha güvenilir ve doğru Makine Öğrenimi modellerini eğitmek için MIT'de öncülük edildi. Daha fazla bilgi için Slack Topluluğumuza katılabilirsiniz.