paint-brush
İş Zekası için Yapay Zeka ile Veri Hazırlamanın Geliştirilmesiile@cleanlab
618 okumalar
618 okumalar

İş Zekası için Yapay Zeka ile Veri Hazırlamanın Geliştirilmesi

ile Cleanlab6m2023/11/07
Read on Terminal Reader

Çok uzun; Okumak

Makalede, veri analitiği ve iş zekası dünyasındaki veri ekiplerinin, iş kullanıcılarının ihtiyaç duyduğu çözümleri nasıl oluşturduğu ve verinin altyapısını oluşturan mühendislik ekipleriyle nasıl çalıştığı anlatılıyor. Bu çözümleri geliştiren analistler, verilerini çeşitli kaynaklardan hazırlamalı ve veri hazırlama araçları aracılığıyla yapılan sorgulama için verilerin sterilize edilmesini sağlamalıdır. Veri merkezli yapay zeka uygulamaları, veri adımının temizlenmesini otomatikleştirerek veri kümesinin daha temiz bir sürümünü minimum çabayla dışa aktarmanıza olanak tanır. Makale ayrıca, etkili veri analitiği için veri kalitesini korumanın ne kadar kritik olduğunu ve veri merkezli yapay zekanın, bir yapay zeka sistemi oluşturmak için kullanılan verileri sistematik olarak tasarlama disiplini olduğunu da açıklıyor.
featured image - İş Zekası için Yapay Zeka ile Veri Hazırlamanın Geliştirilmesi
Cleanlab HackerNoon profile picture
0-item
1-item
2-item

Veri Analitiği ve İş Zekası dünyasında, iş kullanıcılarının ihtiyaç duyduğu çözümleri üreten (kırmızı) ve mühendislik ekipleriyle (mavi) çalışan, “ mor takımlar ” olarak da adlandırılan veri ekipleri, esasen Verinin altyapısını oluşturur. .


BI ekipleri ağırlıklı olarak iş kullanıcılarının tüketimine yönelik raporlar ve temel gösterge tabloları sunan akışlar veya işlem hatları oluşturmak üzerinde çalışır.


Mode , Superset ve Lightdash gibi veri ekiplerinin bu son kullanıcı çözümlerini oluşturmasına yardımcı olan veya Tableau veya PowerBI gibi bir süredir “veri analitiği” alanında yer alan sektör liderlerine yardımcı olan birçok yeni nesil araç bulunmaktadır.


Bu çözümleri geliştiren analistler, verilerini çeşitli kaynaklardan hazırlamalı ve verilerin sorgulama için temizlendiğinden emin olmalıdır. "Veri Hazırlama" adı verilen iş akışında bir temizleme adımı gerçekleştirmeyi amaçlayan bir dizi araç veya dönüşüm.



veri analistleri tarafından verileri hazırlamak için kullanılan popüler bir veri hazırlama aracı



Büyük dil modellerinin ortaya çıkışıyla birlikte, yapay zekayı tartışmak yazılım mühendisliği yığınında yaygın bir eğilim haline geldi. Peki ya şunu söylesem: Veri merkezli yapay zeka uygulamalarını kullanarak veri adımının temizlenmesini otomatikleştirebiliriz? Minimum çabayla veri kümesinin daha temiz bir sürümünü dışa aktarmanıza olanak tanır!


Bu blogda, Veri Odaklı Yapay Zekayı kullanarak sonraki veri analizlerinizden güvenilir sonuçlara varmak için verilerinizi BI araçlarına nasıl kolayca hazırlayabileceğinizi tartışacağız.

Veri Analisti İş Akışı

Birkaç yıl önce, veri analistleri verileri manuel olarak toplamak, temizlemek ve analiz etmek zorundaydı; bu da zaman alıcı bir süreçti ve değerli içgörüler elde etme yeteneklerini sınırlıyordu.



Günümüzde veri analizi ortamı, Alteryx , Tableau vb. gibi veri hazırlama araçlarının kullanıma sunulmasıyla önemli bir dönüşüm geçirdi.


Bu etkili araçlar iş akışını basitleştirerek analistlerin birden fazla kaynaktan gelen verileri sorunsuz bir şekilde entegre etmesine, veri temizleme görevlerini otomatikleştirmesine ve verilerin görsel olarak çekici ve anlayışlı temsillerini oluşturmasına olanak tanıdı.



Manuel Veri Hazırlama Sonrası Veri Analizi


Araçlar kullanılarak hazırlanan veriler, belirli iş sorgularını tanımlamak için BI araçları kullanılarak analiz edilir.

Örneğin, müşterilerin karşılaştıkları sorunları bir müşteri hizmetleri portalında kaydettikleri ve daha sonra bir insan veya otomatik görev yöneticisinin etiketlediği bir bankadaki müşteri taleplerinden oluşan bu veri kümesini düşünün.


Bir iş analistinin belirli bir sorun kategorisi için ortaya çıkan müşteri taleplerinin sayısını belirleyeceğini düşünün. Aşağıda, 111 müşteri sorununu gösteren beneficiary_not_allowed kategorisiyle göreceği sonuç yer almaktadır.




Benzer şekilde, bir analist ATM kelimesiyle ilgili kaç sorun örneğinin olduğunu bulmak isterse, hızlı bir analiz görsel temsilin altına dönecektir. change_pin kategorisine ilişkin sorunların sayısına dikkat edin.



Basit ve anlaşılır görünüyor, ancak veri kümesini daha derinlemesine incelerseniz müşteri isteklerinin sınıflandırılmasının birkaç durumda yanlış olduğunu görebilirsiniz.


Örneğin:

Metin

Etiket (veri kümesine göre)

Etiket (ideal olarak)

Kartımın süresi dolmak üzere. Yenisini ne kadar hızlı alırım ve maliyeti nedir?

apple_pay_or_google_pay

card_about_to_expire


Gerçek dünya verileri çoğunlukla dağınık ve yapısal değildir, bu da istatistik yoluyla değer çıkarmayı zorlaştırır. İnsanların ve makinelerin verilere dayalı kararlar vermesini istediğimiz için verilerin iyi etiketlenmesi, hatalı verilerden arındırılması ve tekilleştirilmesi kritik önem taşıyor.

Veri Merkezli Yapay Zeka


Analizlerde kullanılan verilerin doğru, güncel ve kopya içermediğinden emin olmak çok önemlidir. Bunun yapılmaması yanlış kararlara ve sonuçlara yol açabilir. Örneğin, kullanıcı profili verilerindeki konum alanının boş olması veya konum alanının tutarsız biçimlendirilmesi hatalara yol açabilir. Bu nedenle, veri kalitesinin korunması etkili Veri Analitiği için kritik öneme sahiptir.


Veri merkezli yapay zeka, bir yapay zeka sistemi oluşturmak için kullanılan verileri sistematik olarak tasarlama disiplinidir. Gerçek dünyadaki çoğu veri yapılandırılmamış veya yanlış etiketlenmiştir. Doğru etiketli eğitim verilerine sahip kaliteli bir veri seti, daha iyi sonuçları tahmin edebilecek verimli bir modele yol açar.


Daha iyi sonuçlar, daha iyi bir müşteri deneyimi sağlar. Daha fazlasını öğrenmek için MIT'in Veri Odaklı Yapay Zeka kursuna başvurabilirsiniz.

Cleanlab ile tanışın


Cleanlab, veri kümesindeki sorunları otomatik olarak tespit ederek verileri ve etiketleri temizlemenize yardımcı olan açık kaynaklı bir projedir. Cleanlab, Curtis Northcutt (aynı zamanda Cleanlab.ai'nin kurucu ortağı) ve diğerlerinin veri kümesi etiketlerindeki belirsizliği tahmin etme hakkında konuşan bir makaleye dayanarak güvenli öğrenmeyi kullanıyor.


Cleanlab temel olarak yapay zekayı teşvik ederek veri analizi iş akışını geliştirir.



Cleanlab Studio'yu Kullanarak Verilerinizi Otomatik Temizleme

Cleanlab Studio, açık kaynak paketi Cleanlab üzerine oluşturulmuş kodsuz bir araçtır; verilerin bir analiz iş akışı için hazırlanmasına yardımcı olur. Ayrıca Databricks , Snowflake gibi veri ambarlarınızdan veya AWS S3 gibi Cloud Object Store'lardan da verileri içe aktarabilirsiniz.

Aşama 1:

Cleanlab Studio'ya erişim için kaydolun.



Bazı örnek veri kümeleri ve projelerin bulunduğu bir kontrol panelinde oturum açacaksınız.



Adım 2:

Yükleme sihirbazını başlatmak için “Veri Kümesini Yükle”ye tıklayın. Veri kümesini bilgisayarınızdan, URL'nizden, API'nizden veya Databricks ve Snowflake gibi bir Veri ambarından yükleyebilirsiniz.



Cleanlab Studio, veri şemanızı ve modalitenizi (metin, resim, ses veya tablo) otomatik olarak çıkarır.



Ayrıntıları onayladıktan sonra, yüklenen veri kümesini ve veriler yüklenirken karşılaşılan ilgili hataları (varsa!) gösteren bir ekran gösterilecektir.


Not: Bazı veri kümelerinin yüklenmesi birkaç dakika sürebilir. Veri kümesi tamamen Cleanlab Studio'ya E-posta yoluyla yüklendiğinde Cleanlab sizi bilgilendirecektir.




Aşama 3:

Veri kümesinin türüne bağlı olarak verilerle ilgili sorunları tanımlamak için belirli bir makine öğrenimi görevini kullanabilirsiniz. Şu anda Cleanlab Studio metin, tablo ve görüntü verileriyle ilgili çeşitli makine öğrenimi sınıflandırma görevlerini desteklemektedir.


Sınıflandırmaya özel olarak, K sınıflarından biri veya K sınıflarından N'ye kadar biri olabilir. Bu veri setinde her müşteri talebi belirli bir kategoriye girmektedir. “Çok Sınıflı” bir sınıflandırma olacaktır.




Cleanlab stüdyosu metni ve etiket sütununu otomatik olarak algılayacaktır. Gerekirse düzeltebilirsiniz.




Hızlı modellerin kullanılması en iyi sonuçları vermeyebilir; Zamanın yararına, Hızlı'yı seçmek bir seçenektir.


Verilerimi temizle!

4. Adım:

Cleanlab Studio, veri kümesinde bir dizi model çalıştırır ve soruna genel bir bakış sunar!

Daha önce de belirtildiği gibi, veri kümesi, analiz edildiğinde genel karar alma sürecine değer katmayabilecek verileri ve aykırı değerleri yanlış kategorize etmişti.




Ayrıca üst kısımdaki analitik görünümüne geçerek Cleanlab Studio tarafından veri kümesi üzerinde belirlenen sorunların meta-analizlerine de göz atabilirsiniz.




Adım 5:

Cleanlab Studio'nun ilginç kısmı yalnızca temizlenmiş bir veri kümesini dışa aktarmak değil, aynı zamanda verilerinizin sorun odaklı bir görünümünü sunmasıdır. Bir veri analistinin ve iş zekası kullanıcısının yıllardır istediği eksik veri hazırlama tezgahı.


Her sorunu Cleanlab Studio'da sağlanan klavye destekli eylemlere göre sıralayabilir VEYA aşağıdaki düğmeyi tıklayarak bir "Temiz Kümeyi Dışa Aktar"ı dışa aktarabilirsiniz.





Yapay Zeka Destekli Veri Hazırlama Sonrası Veri Analizi


Temizlenmiş veri seti ile aynı veri analizini inceleyelim.


cancel_transfer ve visa_or_mastercard kategorileri arasında rakamlarda farklılıklar olduğu görülüyor. Bu daha küçük bir veri kümesi olsa da, bu veri düzeltmelerinin daha büyük ölçekte önemli ölçüde farklı tahminlere ve potansiyel iş kararlarına yol açabileceğini unutmamak önemlidir.




Benzer şekilde, sorunlar uygun şekilde işaretlendiğinde bazı kategorilere ilişkin müşteri isteklerinin kaybolduğunu görebilirsiniz.




Bir veri analistiyseniz veya iş zekası topluluğunun bir parçasıysanız Cleanlab Studio, veri hazırlama iş akışınızda devrim yaratabilir. Cleanlab Studio'yu bugün deneyin ve daha güvenilir ve doğru veri analizi için yapay zeka destekli veri temizlemenin gücünü deneyimleyin.

Çözüm

Cleanlab Studio, Fortune 500 şirketlerindeki binlerce mühendis, analist ve veri bilimci tarafından kullanılan, kodsuz bir Veri Hazırlama tezgahıdır. Bu yenilikçi platform, gerçek dünyadaki hatalı verileri kullanarak daha güvenilir ve doğru Makine Öğrenimi modellerini eğitmek için MIT'de öncülük edildi. Daha fazla bilgi için Slack Topluluğumuza katılabilirsiniz.