1'den 10'a kadar bir ölçekte veri depolama becerileriniz ne kadar iyi?  7/10'un üzerine çıkmak ister misiniz? O halde bu yazı tam size göre.  SQL'iniz ne kadar iyi? Bir an önce iş görüşmesine hazırlanmak ister misiniz?  Bu blog yazısında en karmaşık veri ambarı SQL teknikleri ayrıntılı olarak açıklanmaktadır. Bu konuyla ilgili birkaç düşünceyi karalamak için BigQuery standart SQL lehçesini kullanacağım.  1. Artımlı tablolar ve BİRLEŞTİRME  Tablonun güncellenmesi önemlidir. Gerçekten önemli. İdeal durum, BİRİNCİL anahtar, benzersiz tamsayılar ve otomatik artış olan işlemlerinizin olduğu zamandır. Bu durumda tablo güncellemesi basittir:   https://Gist.github.com/mshakhomirov/18775cbbe8288af864ad79247c0de63d?embedable=true#file-1-1-sql  Modern veri ambarlarında normalleştirilmemiş yıldız şeması veri kümeleriyle çalışırken durum her zaman böyle değildir. SQL ile   oluşturmanız ve/veya verilerin yalnızca bir kısmıyla veri kümelerini aşamalı olarak güncellemeniz görevlendirilebilir.   mevcut olmayabilir ancak bunun yerine benzersiz anahtarın bilinen en son   (veya zaman damgasına) bağlı olduğu veri modeliyle uğraşmanız gerekecektir. Örneğin,   veri kümesindeki   bilinen en son bağlantı zaman damgasına bağlıdır. Bu durumda mevcut kullanıcıları   ve yenilerini   isteyebilirsiniz. oturumlar transaction_id transaction_id last_online user_id update insert  BİRLEŞTİRME ve artımlı güncellemeler    kullanabilir veya işlemi iki eyleme bölebilirsiniz. Biri mevcut kayıtları yenileriyle güncellemek için, diğeri ise çıkmayan tamamen yeni kayıtları eklemek için (LEFT JOIN durumu). MERGE'i    genellikle ilişkisel veritabanlarında kullanılan bir ifadedir. Google BigQuery MERGE Komutu, Veri İşleme Dili (DML) ifadelerinden biridir. Genellikle tek bir ifadede üç ana işlevi atomik olarak gerçekleştirmek için kullanılır. Bu işlevler UPDATE, INSERT ve DELETE'dir. MERGE  İki veya daha fazla veri eşleştiğinde UPDATE veya DELETE deyimi kullanılabilir.  INSERT deyimi, iki veya daha fazla verinin farklı olması ve eşleşmemesi durumunda kullanılabilir.  UPDATE veya DELETE deyimi, verilen veriler kaynakla eşleşmediğinde de kullanılabilir.  Bu, Google BigQuery MERGE Komutunun, Google BigQuery tablolarınızdaki verileri güncelleyerek, ekleyerek ve silerek Google BigQuery verilerini birleştirmenize olanak sağladığı anlamına gelir.  Bu SQL'i düşünün:   https://Gist.github.com/mshakhomirov/5ad1a7518c54bc030d1c78b56fe3cf82?embedable=true#file-1-2-sql  2. Kelimeleri saymak  UNNEST() yapmak ve ihtiyacınız olan kelimenin listede olup olmadığını kontrol etmek birçok durumda yararlı olabilir, örneğin veri ambarı duyarlılık analizi:   https://Gist.github.com/mshakhomirov/694e040539b0d1b556f8e053d315a3bf?embedable=true#file-2-sql  3. IF() ifadesinin SELECT ifadesinin dışında kullanılması  Bu bize bazı kod satırlarını kaydetme ve kod açısından daha anlamlı olma fırsatı verir. Normalde bunu bir alt sorguya koymak ve   cümleciğine bir filtre eklemek istersiniz ancak bunun yerine   yapabilirsiniz: Where şunu   https://Gist.github.com/mshakhomirov/933e6a358e49dcccd4e547a5509c8fda?embedable=true#file-3-sql    tablolarla nasıl   başka bir örnek.   . Bu kötü bir örnek çünkü eşleşen tablo son ekleri muhtemelen dinamik olarak (tablonuzdaki bir şeye göre) belirlendiğinden  Bölümlenmiş KULLANILMAYACAĞINA Bunu yapma , tam tablo taraması için ücretlendirileceksiniz.   https://Gist.github.com/mshakhomirov/1c62d79cd9690140c569cd047b9d491f?embedable=true#file-3-2-sql    yan tümcesinde ve   işlevlerinde de kullanabilirsiniz. HAVING AGGREGATE  4. GRUPLAMAYA GÖRE GRUPLAMA'yı kullanma  ROLLUP işlevi birden çok düzeyde toplama gerçekleştirmek için kullanılır. Bu, boyut grafikleriyle çalışmanız gerektiğinde kullanışlıdır.   Aşağıdaki sorgu,   cümlesinde belirtilen işlem türüne (is_gift) göre günlük toplam kredi harcamasını döndürür ve ayrıca her gün için toplam harcamayı ve mevcut tüm tarihlerdeki toplam harcamayı da gösterir. Where   https://Gist.github.com/mshakhomirov/4cf738aaad967fe92c4fb7192874fadf?embedable=true#file-4-sql  5. Tabloyu JSON'a dönüştürün  Tablonuzu, her kaydın iç içe geçmiş bir dizinin öğesi olduğu JSON nesnesine dönüştürmeniz gerektiğini düşünün.   fonksiyonunun kullanışlı olduğu yer burasıdır: to_json_string()   https://Gist.github.com/mshakhomirov/aac1f93312ae305ba80c915fe4a2a386?embedable=true#file-5-sql  Daha sonra onu her yerde kullanabilirsiniz: tarihler, pazarlama hunileri, endeksler, histogram grafikleri vb.  6. PARTITION BY'yi kullanma    ,   ve   sütunları verilmiştir. HER tarih için, tüm satırları korurken HER müşterinin toplam gelir değerini nasıl gösterirsiniz? Bunu şu şekilde başarabilirsiniz: user_id date total_cost   https://Gist.github.com/mshakhomirov/e4f11721eb5a3182150df08f25b70d64?embedable=true#file-6-sql  7. Hareketli ortalama  Çoğu zaman BI geliştiricilerine raporlarına ve harika kontrol panellerine hareketli bir ortalama ekleme görevi verilir. Bu 7, 14, 30 günlük/ay ve hatta yıllık MA çizgi grafiği olabilir. Peki bunu nasıl yapacağız?   https://Gist.github.com/mshakhomirov/ebf5488d0036bc9b84ae05889346d986?embedable=true#file-7-sql  8. Tarih dizileri    konusunda çalıştığınızda veya bazı veri kümelerinde eksik değerler (ör. tarihler) olup olmadığını kontrol etmek istediğinizde gerçekten kullanışlı olur. BigQuery'nin   adında bir işlevi vardır: Kullanıcıları elde tutma GENERATE_DATE_ARRAY   https://Gist.github.com/mshakhomirov/2ba5a67053f85794462dab98e56ad74d?embedable=true#file-8-sql  9. Satır_numarası()  Bu, verilerinizden en son bilgileri (en son güncellenen kayıt vb.) almak ve hatta kopyaları kaldırmak için kullanışlıdır:   https://Gist.github.com/mshakhomirov/05d0c04c5975207d98552ffd436add8b?embedable=true#file-9-sql  10. NTILE()  Başka bir numaralandırma işlevi. Bir mobil uygulamanız varsa   izlemek gerçekten yararlıdır. Örneğin, Uygulamamı Firebase'e bağladım ve kullanıcılar   yaptığında bunun ne kadar sürdüğünü görebiliyorum.  Login duration in seconds login  Bu işlev, satır sıralamasına göre satırları   gruplarına böler ve her satıra atanan 1 tabanlı grup numarasını döndürür. Demetlerdeki satır sayısı en fazla 1 farklılık gösterebilir. Geriye kalan değerler (satır sayısının geri kalan kısmı demetlere bölünür), demet 1'den başlayarak her demet için bir tane dağıtılır.   NULL, 0 veya negatif olarak değerlendirilirse, bir hata verilmektedir. constant_integer_expression constant_integer_expression   https://Gist.github.com/mshakhomirov/16fe941aa8c4ed79e4aad8b7049b307a?embedable=true#file-10-sql  11. Sıra / yoğun_sıralama  Bunlara   fonksiyonları da denir. Ben     kullanma eğilimindeyim çünkü bu,   yapabileceği bir sonraki mevcut sıralamayı atlamaz. Ardışık sıra değerlerini döndürür. Sonuçları farklı gruplara ayıran bir bölümle kullanabilirsiniz. Her bölümdeki satırlar aynı değerlere sahipse aynı dereceleri alır.  numaralandırma varsayılan sıralama işlevi olarak DENSE_RANK RANK Örnek:   https://Gist.github.com/mshakhomirov/459b68c5f3d1e8284c01e516db1d8dcb?embedable=true#file-11-1-sql   Ürün fiyatlarına başka bir örnek:   https://Gist.github.com/mshakhomirov/4c90a6fc8516d8264e172676a83a1048?embedable=true#file-11-2-sql  12. Döndür / döndür  Pivot, satırları sütunlara dönüştürür. Bütün yaptığı bu. Unpivot   yapar. tam tersini   https://Gist.github.com/mshakhomirov/f90b035ba259e672d4d51a669e0cd1fc?embedable=true#file-12-sql  13. İlk_değer / son_değer  Bu, söz konusu bölümdeki ilk/son değere karşı her satır için bir delta elde etmeye yardımcı olan başka bir yararlı işlevdir.   https://Gist.github.com/mshakhomirov/ea4de9144b97bf8c196cab07609c309e?embedable=true#file-13-sql  14. Bir tabloyu yapı dizisine dönüştürün ve bunları UDF'ye aktarın  Bu, her satıra veya tabloya karmaşık bir mantıkla kullanıcı tanımlı bir işlev (UDF) uygulamanız gerektiğinde kullanışlıdır. Tablonuzu her zaman TYPE STRUCT nesnelerinden oluşan bir dizi olarak düşünebilir ve ardından bunların her birini UDF'ye aktarabilirsiniz. Bu sizin mantığınıza bağlıdır. Örneğin, satın alma işleminin sona erme sürelerini hesaplamak için kullanıyorum:   https://Gist.github.com/mshakhomirov/35d956fa9db86b12b44ab62c00f42a40?embedable=true#file-14-sql  Benzer şekilde   kullanmaya gerek kalmadan tablolar oluşturabilirsiniz. Örneğin, birim testleri için bazı test verileriyle dalga geçmek için kullanıyorum. Bu şekilde editörünüzde   +   +   tuşlarını kullanarak bunu çok hızlı yapabilirsiniz. UNION ALL Alt Shift Down   https://Gist.github.com/mshakhomirov/6ea226c1b5b789d4a31691ce065c20d7?embedable=true#file-14-2-sql  15. TAKİP ETME VE SINIRSIZ TAKİP ETME özelliğini kullanarak etkinlik hunileri oluşturma  İyi bir örnek pazarlama hunileri olabilir. Veri kümeniz aynı türde sürekli olarak tekrarlanan olaylar içerebilir, ancak ideal olarak her olayı farklı türden bir sonraki olayla zincirlemek istersiniz. Bir huni veri kümesi oluşturmak için etkinlikler, satın almalar vb. gibi bir şeyin listesini almanız gerektiğinde bu yararlı olabilir. PARTITION BY ile çalışmak size, her bölümde kaç tane olursa olsun, aşağıdaki tüm olayları gruplama fırsatı verir.   https://Gist.github.com/mshakhomirov/05fd7d79d8acf3b173181a5d950ab6e7?embedable=true#file-15-sql  16. Regexp  Yapılandırılmamış verilerden (örneğin döviz kurları, özel gruplamalar vb.) bir şey çıkarmanız gerekiyorsa bunu kullanırsınız.  Regexp kullanarak döviz kurlarıyla çalışma  Döviz kurları verileriyle ilgili bu örneği düşünün:   https://Gist.github.com/mshakhomirov/9ca6e153da19c491034bd57995875308?embedable=true#file-16-1-sql  Regexp kullanarak Uygulama sürümleriyle çalışma  Bazen uygulamanızın   ,   veya   sürümlerini almak ve özel bir rapor oluşturmak için   kullanmak isteyebilirsiniz: ana yayın mod regexp   https://Gist.github.com/mshakhomirov/b1f442a296ffef52c7baa1245e1dc316?embedable=true#file-16-2-sql  Çözüm  SQL, verileri işlemeye yardımcı olan güçlü bir araçtır. Dijital pazarlamadaki bu SQL kullanım örneklerinin sizin için yararlı olacağını umuyoruz. Bu gerçekten kullanışlı bir beceridir ve birçok projede size yardımcı olabilir. Bu SQL parçacıkları hayatımı çok kolaylaştırdı ve iş yerinde neredeyse her gün kullanıyorum. Dahası, SQL ve modern veri ambarları veri bilimi için temel araçlardır. Sağlam lehçe özellikleri, verilerin kolaylıkla modellenmesine ve görselleştirilmesine olanak tanır. SQL, veri ambarlarının ve iş zekası profesyonellerinin kullandığı dil olduğundan, onlarla veri paylaşmak istiyorsanız mükemmel bir seçimdir. Piyasadaki hemen hemen her veri ambarı/lake çözümüyle iletişim kurmanın en yaygın yoludur.  İlk olarak   tarafından   yayınlandı datamike mydataschool.com'da  Mike tutkulu ve dijitale odaklanmış, büyük bir motivasyon ve coşkuya sahip, dijital pazarlamanın tüm karışımının ortaya çıkardığı zorlukları seven bir kişidir. İngiltere'de yaşıyor, 2015 yılında Newcastle Üniversitesi'nden MBA derecesini tamamladı.

Read me on Medium.com

Read My Stories

Bu ses hikayenin orijinal dilinde üretilmiştir!

Yeni Başlayanların Bilmesi Gereken 16 SQL Tekniği

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Görünmeyen Katmanlar: Kullanıcı Görüşmeleri Neden Yeri doldurulamaz bir Varlıktır?

Benzersiz Bir Ekosistemi Güçlendiren Bitcoin UTXO Modeli

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

Sulara Yelken Açmak: Data Lakes ile Üretim Sınıfında RAG Uygulamaları Geliştirme

Görünmeyen Katmanlar: Kullanıcı Görüşmeleri Neden Yeri doldurulamaz bir Varlıktır?

Benzersiz Bir Ekosistemi Güçlendiren Bitcoin UTXO Modeli

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

Sulara Yelken Açmak: Data Lakes ile Üretim Sınıfında RAG Uygulamaları Geliştirme

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps