AI/ML projelerinde iş etkisini ölçmek için pratik bir kılavuz

Beğenmeyin ya da beğenmeyin, gerçek şu: Ürününüzün veya özellikinizin AI / ML kullanması yeterli değildir. En azından kalıcı, olumlu bir etki istiyorsanız değil. hype ve viral buzz'in ötesinde, iş hala kâr, ROI ve büyüyen ölçümlerle ilgilidir. Çoğu durumda doğası budur. Bu, bu projeleri inşa eden bizler için, AI / ML'nin etkisini nasıl ölçeceğimizi bilmek önemlidir. hem ilk aşamada hem de her iyileştirmenin ardından. Bu makalede, AI kabul etmenin etkisini ölçmemize ve bu yöntemlerin nasıl çalıştığını anlamamıza yardımcı olan araç kitine bir göz atalım. Sonunda, projenizin iş üzerindeki etkisini ölçmenin ana yaklaşımlarını anlayacaksınız.Metodların kaba bir haritasına sahip olacaksınız ve kendinizi nasıl yönlendireceğinizi bileceksiniz - durumunuza en uygun olanı. Oradan daha derin bir dalış için hazır olacaksınız. Anlatım Haritası - navigasyonunuzu sağlamak için Temelleri ile başlayacağız - neden ve ne zaman ölçmeye değer. Sonra neyin yanlış gidebileceğini ve neden her değişikliğin bir deneye layık olmadığını göreceğiz. Oradan, altın standartlarına - A / B testlerine - dalacağız ve birini çalıştıramıyorsanız ne yapmalısınız. Son olarak, deneylerin ötesine, nedensel varsayım yöntemlerine gideceğiz - ve bulduğunuz şeye nasıl güveneceğinizi. Etkisini ölçmek: Neden, ne zaman ve nasıl olmamalı When it’s worth measuring Ne zaman ölçmeye değer İlk olarak, gerçekten rahatsız etmek istediğiniz ana nedenler. Risk & Value Başlangıçta değerle ilgilendik.Bir özelliğin daha fazla yatırım yapmak için yeterli olup olmadığını ölçmek istiyoruz.Ne kadar, geleceği nasıl olmalıdır. Önemli faktörleri unutmayın - Parlak yeni değişiminiz aslında işleri daha da kötüleştirirse - dönüşüm oranları düştü, kullanıcılar hayal kırıklığına uğradı, daha az para var - want to know that quickly enough to react. Avoiding a failure can matter even more than catching an upside. risk management. kesinlikle Innovation Agile döneminden bu yana, ürün geliştirme, hızlı iterasyonlar, piyasa silah yarışları ve ürün-piyasa uyumluluğu için sonsuz arama ile ilgilidir.Şirketler rekabetçi kalmak için aynı anda onlarca şey yapar ve gerçekten parlak çözümleri sadece iyi çözümler arasında önceliklendirmek isteyebilirsiniz.Oyunları, kullanıcıların gerçekten ihtiyacı olan şeyleri veya minimum yatırımla olumlu bir etki elde edebileceği alanları gerçekten değiştirebilecek özellikler.Sayılar duygulardan daha kolay karşılaştırılabilir, değil mi? Optimization Bilinçli, ölçüm yöntemi güzelliği, sizi daha derine kazmanıza izin vermesidir. Belki gelir hemen atlamadı, ancak kullanıcılar yeni işlevleri seviyor ve her gün onunla ilgileniyor. Belki de belirli bir segmentle rezonans gösteriyor ama başkalarını rahatsız ediyor. Bu ve diğer fikirler daha fazla optimizasyon için fırsatlar açar. Daha iyi olursunuz. doğayı Organization “Data-driven” olmayı konuşan bir yerde çalışıyor musunuz? ya da belki de kişisel olarak gerçekleri bağışıklık duygusuna güvenen tip misiniz? O zaman bu olmak istediğiniz yer: etkisini ölçmeyi öğrenmek ve sonuçlarınızın sizi belirlediğiniz hedeflere doğru götürmesini sağlamak. When Not to Test Test edilmediği zaman Dediğim gibi, orada Deneylerin anlamsız olduğu durumlar - ya da hiç mümkün olmadığı durumlar. var mı Methodological limits Bazen yöntemleri uygulamak basitçe imkansızdır. Sonuç elde etmek için çok az veri. Değişiklikler algılamak için çok küçük. Ya da neyin iyileştirilmesi gerektiği hakkında hiçbir hipotez yok (bu durumda - neden bir şey geliştirmek zorunda kaldınız?). Non-optional work Bazı değişiklikler zorunludur. Yasal veya uyumluluk gereksinimleri klasik durumdur. AI özel değil, ama açık: GDPR'ye uymak, ürününüzü erişilebilirlik için özelleştirmek gerekir. Burada dönüşüm yükseltmeleri beklemiyorsunuz - bunu yapıyorsunuz çünkü yapmanız gerekiyor. Aynı şey için Site bir 502 hatası döndürmez. iş değeri için nasıl? critical fixes or infrastructure updates. Ethical red lines Bazı ölçüm uygulamaları etik sınırları aşarak, kullanıcılara zarar verme veya manipülatif tasarım riski taşıyor. Better alternatives Bazen sadece buna değmez. ölçümlere harcanan çaba ( kaynaklar) değerinin kendisinden daha yüksek olabilirse, atlayın. zaman, para, fırsat maliyeti. En basit örnek: Sadece birkaç müşteriyle genç, hızlı hareket eden başlangıçlar, genellikle kısa iterasyonlar ve doğrudan kullanıcı geribildirimleri aracılığıyla ürün pazarına uyum sağlamaktan daha iyidir. Nasıl ölçülemez Önce sonra İçgüdüsel olarak, talep şu şekildedir: Bakın nasıl oldu Yeni özelliği başlatın Bak şu an nasıl Pozitif bir sonuç Kazanç Ama "Şimdi daha iyi görünüyor" bir karanlık tarafı vardır. Zamanla birçok şey değişir (saatlik, dış olaylar, trafik değişiklikleri). Çevre değişiklikleri etkisi ile karıştırılır. Core issue: YoY (Yıl Boyu) Karşılaştırma Bu tanıdık ve geleneksel iş becerisi, soruyu cevaplamak için mükemmel: “Bir iş olarak büyüyoruz?” Ve birçok durumda yararlıdır, ancak bir özelliğin uygulanması veya iyileştirilmesinin izole bir değerlendirmesinde değildir. Just imagine how much has happened in business this year. Marketers, SEOs, salespeople, you name it - everyone around you has been working tirelessly to ensure growth. The world around us isn't standing still either. Tariffs, Covid-19, and wars are happening. Bloggers and celebrities express their opinions. TikTok trends are changing consumer behavior, and your competitors are doing their part, too. Ancak bu Ocak ayında satışın yüzde 10 artışı sadece AI chatbotunuzun (Ciddi mi?) sayesinde oldu. Çok uzun bir pencere - düzinelerce diğer değişiklik paralel olarak gerçekleşir. Herhangi bir YoY farkı her şeyi yansıtıyor, özelliğiniz değil. Uzun vadeli iş eğilimlerini tek bir değişikliğe yanlış atıfta bulunur. Core issue: Etiket Arşivi: causation Muhtemelen “korelasyon nedensellik anlamına gelmez” ifadesini duymuşsunuzdur, ama pratikte ne anlama geliyor? Bir AI chatbot'u başlattığınızda ve biraz sonra, tamamlanan satın alma sayısı artıyor. Chatbot'un artışa neden olduğu gibi geliyor, doğru mu? Belki - veya belki de değil. Kullanım ve sonuçlar birlikte hareket ettiğinde, neden ve etki gibi görünüyor. Ama aynı zamanda pazarlama ekibiniz yeni bir kampanya başlattı. Ya da yılın bu zamanında her zaman bir satış zirvesi olan mevsimsel bir zirve vardı. Ya da bir rakip stoktan çıkmıştı. Ya da... biliyorsunuz, birçok sebep olabilir. Ve hepsi birlikte veya botunuz yerine rakamları etkileyebilirler. Sorun şu ki, veriler sadece iki şeyin aynı anda gerçekleştiği için ilişkili görünebilir. beynimiz desenleri tanımakta iyidir, ancak iş paralel olaylar ve gürültülerle doludur. Nedeni tesadüfen ayırmazsak, yanlış kararlar almayı riske atarız - örneğin, başarı için gerçekten sorumlu olmayan bir özelliğe daha fazla yatırım yapmak gibi. Korelasyon sadece iki şeyin aynı anda değiştiğini gösterir, ancak birinin diğerini yarattığını vaat etmez. Core issue: Randomized Controlled Experiments (RCE) Altın Standartları 10'dan 10'a kadar burada olmak istiyorsun. 10'dan 8-9'a kadar burada olacaksın. ve bu makalenin ortaya çıkması RCE'nin yeterli olmadığı bu durumlar nedeniyle. O halde iyi şeylere başlayalım. Klasik A/B testleri Muhtemelen bu yöntemi biliyorsunuzdur.Aşağıdaki şekilde özetlenir: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect İyi haber, sorunun bir kısmının RCE dışına çıkmadan, temel olarak aynı mekanikleri kullanarak çözüldüğüdür. There’s more to split than traffic! Trafikten daha fazlası var! Yukarıdaki sorunlardan bazıları, genel test tasarımının sadece bir kısmını değiştirerek çözülebilir. Bir çok özet ve analistlere göre, farklı co-pilotlar ve asistanlar LLM tabanlı ürünlerin en üstünde ortaya çıkıyorlar. Hem popülerlik hem de “hayatta kalma oranı”, yani MVP’lerden daha uzun yaşama şansına sahipler. Bu tür projelerin ortak özelliği, bir çalışanın işini kolaylaştırmak / hızlandırmak için tasarlanmış bir çözümün olmasıdır. Çağrı Merkezi operatörleri, satış insanları, finansman insanları ve benzeri olabilir. Ama çoğu zaman onları iki gruba bölmek ve hızlarını / verimliliğini co-op ile ve olmadan ölçmek için çok sayıda çalışanımız yoktur. İşte ( Araştırmanın bir parçası olarak, araştırmacılar, AI araçlarının kullanımı mühendislerin çalışmasını nasıl etkilediğini görmek istiyorlar. Eğer modern bir arsenal verilseydi, görevleri daha hızlı kapatacaklar mı? Bağlantı Yazarlar bölünmüş and compared completion times. So the sample here is not 16 developers, but 246 tasks. It's still not a huge sample, but: tasks P değerleri iyi. Yazarlar, ekran kayıtlarını analiz etti ve işaretlediler, röportajlar yaptı. Kısacası, nitelikli araştırmalar yaptılar. nitelikli ve nitelikli araştırmaların sonuçları tutarlı olduğunda bu güçlü bir sinyal. Yukarıdaki bağlantıda metodolojinin sonuçlarını ve ayrıntılarını okuyabilirsiniz.Ama bizim için önemli olan şu anda konumuzun çerçevesinde sonuçlar çıkarmak, bu çalışmanın kendisinden değil, yaklaşımın anlaşılabilir bir örneğinden ilgileniyoruz. Let’s give this idea a skeleton. AI Copilots (Kontakt Merkezleri / Dev Ekipleri / vb) Case: Why not user-split? “Kullanıcılar” burada ajanlar / görevlilerdir; küçük popülasyonlar + dağılımlar ( paylaşılan makrolar, coaching, değişim efektleri). Instead, randomize: Bilet / sohbet (giriş sırasında tedavi atın). Ya da grup olarak sıra / niyet (faturalama, teknoloji, geri dönüşler, vb.) kanal (chat / e-posta / ses) ve öncelik / SLA; monitör otomasyon önyargıları; cluster-robust SE ile analiz. Design notes: Bu ilkeyi anladığınızda, diğer varlıklar için de uygulanabilir. Zaman, coğrafi konum ve daha fazlasını paylaşabilirsiniz. Benzer durumlar arayın, ilham alın ve uyum sağlayın. Bu ilkeyi anladığınızda, diğer varlıklar için de uygulanabilir. Zaman, coğrafi konum ve daha fazlasını paylaşabilirsiniz. Benzer durumlar arayın, ilham alın ve uyum sağlayın. Klasik AB testinin uygun olmayabileceği başka bir yaygın görev türü için bir not bırakacağım - fiyat algoritmaları. Dinamik Fiyatlar (Retail) Case: Why not user-split? Mağazada farklı insanlara farklı fiyatları göstermek imkansızdır (ve karmaşık). Çevrimiçi genellikle yasadışı / etik olmayan ve adalet sorunlarını tetikler. Instead, randomize: Time (switchback) for the same SKU×store (e.g., by shifts/days). (Özel) Klasörler - SKU × mağaza (veya mağaza kümeleri), kategoriye / trafiğe göre katlanmıştır haftalık / mevsimlik bilanço günleri; cluster-robust SE kullanın; promosyon / stok aşınmalarında koruyucular. Design notes: Randomizasyon bir seçenek olmadığında Herkes için zaten canlı olduğunda veya kontrol grubu ile deney yapamıyorsanız çekirdek AI özelliğinizin etkisini nasıl ölçüyorsunuz? RCE'nin bir nedenden dolayı altın standart olduğunu belirledik, ancak denetlenmiş deneylerin temiz dünyası genellikle işin karmaşık gerçekliğine yer veriyor. Er ya da geç, her ürün ekibi, klasik bir A/B testinin cevaplayamayacağı kritik bir soruyla karşı karşıya kalır. En popüler olanlardan bazılarını keşfetelim ve özünü yakalamaya çalışalım. Yöntemler genel bakış Propensity Score Matching (PSM) Hakkında Bilgi Gitmek için: Bir tedaviye maruz kalma olasılığı rastgele değilse (örneğin, bir kullanıcı geliştirdiğiniz bir özelliği kullanmaya karar verdiğinde) bu yöntemi dikkate alabilirsiniz. tedaviyi alan her kullanıcı için, aynı olasılığı olmayan bir kullanıcı buluruz. Use Case: Ürününüz için çok eğlenceli ve eğlenceli bir onboard oluşturduğunuzu hayal edin - örneğin, bir maskote ile etkileşimli bir öğretici. Bu durumda, motivasyon bir anahtar faktördür. onboarding'i tamamlamayı seçen kullanıcılar muhtemelen ürünü keşfetmekte daha fazla ilgi duyarlar. onboarding'in kendisinin "temiz" etkisini ölçmek için, bunları benzer kullanıcılarla karşılaştırmanız gerekir. Decision Guide karar kılavuzu Teknik Notlar : (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Karşılaştırma Stratejisi Önemli: Çiftleri oluşturmanın birkaç yolu vardır, her biri kendi kompromisleri ile. Yaygın yöntemler arasında bir-bir karşılaştırma, bir-bir-çok karşılaştırma ve bir değiştirme ile veya olmadan karşılaştırma vardır. Seçim verilerinize ve araştırma sorunuzuna bağlıdır. Her zaman Denge Kontrolü: Karşılaştırma yaptıktan sonra, özelliklerin (kovalaryalar eğilim puanını hesaplamak için kullanılan) aslında tedavi edilen ve yeni oluşturulan kontrol grubu arasında dengeli olduğundan emin olmalısınız. Etki Herkes için Değil: PSM ile tahmin edilen nedensel etki teknik olarak tedavi edilenler üzerindeki "ortalama tedavi etkisidir" (ATT). : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model Bu her zaman en iyi araç değildir: PSM sezgisel değildir, ancak bazen regresyon ayarları veya daha gelişmiş teknikler (örneğin, iki kat güçlü tahminler) gibi daha basit yöntemler daha güçlü veya güvenilir olabilir. • Sintetik Kontrol (SC) Gitmek için: Hedef, tedavi edilen birine benzeyen birkaç tedavi edilmemiş birim bulmaktır.Bu havuzdan, özelliklerini tedavi edilen birimle yakından benzeyen bir şekilde birleştirerek “sintetik” bir kontrol grubu oluşturuyoruz. This "combination" is essentially a kontrol grubundan (genellikle “donör havuzu” olarak adlandırılır). ağırlıklar, tedavi edilen birim ve sentetik versiyon arasındaki farkı en aza indirmek için seçilir. . weighted average pre-treatment period Use Case: Hayal edin, gıda teslimat şirketiniz, Manchester gibi tüm şehirlerde teslimat süresini azaltmak için yeni bir AI tabanlı lojistik sistemini uyguluyor. Klasik bir A/B testi imkansızdır, çünkü sistem tüm kurye ve müşterileri aynı anda etkiler. Ayrıca, Manchester'ın performansını Birmingham gibi başka bir şehre kıyaslayamazsınız, çünkü benzersiz yerel olaylar veya ekonomik eğilimler karşılaştırmayı ters çevirecektir. Gerçek etkiyi ölçmek için, Manchester'ın başlangıç öncesi eğilimlerini mükemmel bir şekilde yansıtan bir "sintetik" kontrol oluşturmanız gerekir. İşte o “sintetik ikiz” nasıl inşa edilir. Başlangıç ve diğer şehirlerin (örneğin, Birmingham, Leeds, ve Bristol) bir "danışan topluluğu" kullanarak, Manchester'ın geçmişini tekrarlamak için mükemmel "reçete" oluşturmak. anahtar öngörüleri (örneğin nüfus veya geçmiş teslimat zamanları) üzerinde tarihi verileri analiz ederek, algoritma ideal ağırlıklı karışımı bulur. Manchester için neredeyse mükemmel bir maç oldu. before "40% Birmingham + 35% Leeds + 25% Bristol" Bu reçeteyi kilitledikten sonra, yeni sistem olmadan neler olabileceğini öngörmek için kullanılır. Başlatma gününden itibaren, model, reçeteyi bağışçı şehirlerin gerçek, gerçek zamanlı verilerine uygulayarak "Synthetic Manchester'ın" performansını hesaplar. Bu sentetik sürüm, gerçek Manchester'ın seçtiği en muhtemel yoldur. Gerçek Manchester'ın geliştirilmiş teslimat zamanları ile sentetik ikizinin performansları arasındaki fark, yeni AI sisteminizin gerçek, izole etkisidir. Decision Guide karar kılavuzu Technical Notes: (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Ağırlık Şeffaflığı ve Tanımlama: Her zaman bağışçı havuzundaki birimlere atanan ağırlıkları inceleyin. eğer bir birim neredeyse tüm ağırlığı (örneğin, %99) alırsa, "sentez kontrolünüz" esasen tek bir kontrol ünitesi ile basit bir DiD (Difference-in-Differences) modeli haline geldi. bu, bağışçı havuzunuzun yeterince çeşitlenmediğini gösterebilir. The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Difference-in-Differences (DID) The Gist: Bir şeyin değiştiği bir grup (örneğin, yeni bir özellik aldık) ve her şeyin aynı kaldığı bir grup alırız. İkinci grup, tarihsel olarak anahtar metriklerin eğilimi, özelliğe sahip grupta olduğu gibi aynı olmalı. Bunun temelinde, müdahaleniz olmadan metriklerin eğilimlerinin paralel olacağını varsayıyoruz. İki grubun öncesi ve sonrasındaki farklılıkları inceliyoruz. Sonra bu iki farklılıkları karşılaştırıyoruz. (bu nedenle yöntem Difference-in-Differences denir). Fikir basittir: biz olmadan, her iki grup da değişmeden aynı şeyi geliştirecek, ama bizimle, değişiklikleri arasındaki fark, özelliğimizin uygulanmasındaki “net” etkisi olacaktır. Use Case(s): Yöntem çok popüler, hatta birkaç vaka çalışmasına da göz atalım. Bir bölge (Ülke, şehir) yeni indirim sistemi (veya AI hizmeti) alırken, başka bir bölge değil. Bir LLM, bir ürün kategorisi için Google Alışveriş için optimize edilmiş bir XML akışını oluşturmak için kullanılır. Bu, daha ilgi çekici başlıklar ve ayrıntılı ürün açıklamaları oluşturmayı içerir. Standart, şablon tabanlı bir akış ile ikinci, benzer bir kategori bir kontrol grubu olarak kullanılır. Daha sonra CTR gibi ölçütlerde değişiklikleri veya iki grup arasındaki dönüşümleri karşılaştırırız. Benzer mekanizmalar SEO ile çalışabilir. Uyarı : Farklı kategoriler için organik trafik eğilimleri (örneğin, "laptoplar" ve "köpek yiyecekleri") mevsimlik veya rakip eylemleri nedeniyle büyük ölçüde farklılık gösterebilir. Uyarı : Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. Uyarı : Decision Guide Decision Guide Teknik Notlar : (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity The Core Strength: DiD’nin gücü, genellikle gerçekçi olmayan “gruplar aynıdır” temel varsayımını daha gerçekçi “grupların eğilimleri aynıdır” olarak değiştirmekte. Android ve iOS arasındaki basit bir lansman karşılaştırması, kullanıcı tabanları temel olarak farklı olabilir çünkü kusursuzdur. Android’de basit bir önceki ve sonraki karşılaştırma aynı zamanda mevsimsellik ve diğer zaman tabanlı faktörler nedeniyle kusursuzdur. DiD, bir ölçütün mutlak seviyelerinin farklı olabileceğini varsayarak her iki sorunu şık bir şekilde ele alırken, müdahalenin olmaması halinde “ritim” veya dinamikleri aynı olurdu. Aldatıcı Basitlik: DiD temel 2x2 durumunda basit olmasına rağmen, çok karmaşık hale gelebilir. zorluklar, gruplar arası tedavi için farklı başlangıç saatleri (sıkıştırılmış kabul) ve ek covariates için kontrol etmek için makine öğrenme tekniklerini kullanırken ortaya çıkar. "Staggered Adoption" sorunu : klasik DiD modeli, bir grup bir noktada müdahaleyi aldığında idealdir. ama bildiğiniz gibi yaşamda, farklı alt gruplar (örneğin farklı bölgeler veya kullanıcı grupları) genellikle farklı zamanlarda işlevi alır. ve bu, standart DiD regresyonunun uygulanması çok önyargılı sonuçlara yol açabilir. Tedavi etkisinin heterojenliği: Basit bir DiD modeli, tedavi etkisinin her yerde ve zaman içinde sabit olduğunu varsayar. Gerçekte, etki gelişebilir (örneğin, kullanıcılar özelliğe alıştıkça artabilir) veya farklı alt gruplar arasında değişebilir. Bunu gösteren çalışmalar vardır ve bu etkiyi dikkate alan belirli değerlendirme yöntemleri vardır. En azından yeni bir çalışma çıkana kadar böyle düşünüyoruz, değil mi? Regresyon Discontinuity Tasarımı (RDD) Gitmek için: If a user gets a treatment based on a rule with a cutoff value (e.g., "made 100 orders" or “exist 1 month”), we assume that those just below the cutoff are very similar to those just above it. For example, a user with 99 orders is almost identical to a user with 101 orders. The only difference is that the person with 101 got the treatment, and the person with 99 didn't. This means we can try to compare them to see the effect. Use Case(s): A loyalty program gives Bir yılda 1000 dolardan fazla harcayan kullanıcılar için RDD, harcayan kullanıcıların davranışlarını (örneğin, tutma, gelecekteki harcama) karşılaştırır. with those who spent 1000 $ markasında davranışlarında keskin bir fark, “Altın Durumu” elde etmenin etkisi olacaktır. "Gold Status" $1001 $999 Bir e-ticaret sitesi, müşterilere varış zamanlarına göre farklı nakliye seçenekleri sunar. 2 gün teslimat alırken, herhangi bir müşteri geldiğinde gets a 3-day shipping window. The site wants to measure the causal effect of this policy on the checkout probability. before noon just after noon Decision Guide karar kılavuzu Teknik Notlar : (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bu makale, kesimin geçmesi tedaviyi garanti ettiği Sharp RDD'ye odaklanmaktadır. Fuzzy RDD denilen bir değişiklik, kesimin geçmesi sadece tedaviyi almanın olasılığını arttırdığı durumlar için vardır. Herhangi bir RDD analizinin ilk adımı verileri çizmektir. Sonuç değişkenini çalıştırma değişkenine karşı çizmelisiniz. kesme sırasında "başlama" veya kesintiliği çıplak gözle açıkça görülebilir olmalıdır. A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Bayesian Structural Time Series (BSTS) ile ilgili detaylar Based on pre-event data, the model builds a forecast of what would have happened without our intervention. To do this, it relies on other, similar time series that were not affected by the change. The difference between this forecast and reality is the estimated effect. We looked at Synthetic Control earlier; think of BSTS as that same idea of estimating impact via similar, unaffected units, but . In Simple Terms: Steroidler için To build an "alternate universe" where your feature never existed. The main difference from Synthetic Control is that to build the forecast, it uses a Bayesian model instead of a multiplication of weights. Key Idea: Bir ürün kategorisi için fiyat politikasını değiştirdiniz. etkisini ölçmek için, model, kategorinizdeki satışların ne olacağını tahmin etmek için diğer benzer kategorilerdeki satışları kullanır. Fiyat değişikliği Use Case: olmadan BSTS ile çalışmak için mükemmel hazır kitaplıklar vardır (Google'ın CausalImpact gibi), 10-20 satırlık kodla bunu yapabilirsiniz. sadece testleri çalıştırmayı unutmayın (aşağıdaki bloğa bakın). BSTS ile çalışmak için mükemmel hazır kütüphaneler (Google'ın ), with which you can get it done in 10-20 lines of code. Just don't forget to run the tests (see the block below). CausalImpact Instrumental Variables (IV) Alternatif Değişkenler (IV) Kullanıcının seçimini ve nihai sonucu etkileyen gizli bir faktör (motivasyon gibi) olduğu durumlar için bir yöntem. In Simple Terms: Sadece ihtiyacınız olanı taşımak için “dışarıdan hibe” bulmak. Key Idea: (Akademik) TV reklamlarının satış üzerindeki etkisini ölçmek istiyorsunuz, ancak reklamlar insanların zaten daha fazla satın aldığı bölgelerde gösteriliyor. Hava durumu olabilir: Yağmurlu günlerde insanlar daha fazla TV izler (ve reklamı görürler), ancak hava kendisi doğrudan ürününüzü satın almasına neden olmaz. Use Case: instrument Double Machine Learning (DML) İki ML modeli kullanan modern bir yaklaşım, hem tedaviyi hem de sonuçları yüzlerce diğer faktörün etkisinden temizlemek için. Sadece bu “temizleme” (kalanlar) sonrasında kalanları analiz ederek, yöntem, net neden ve etki etkisi bulur. DML'nin ana gücü - A / B testi yapılması imkansız veya çok zor olduğu yerlerde. Çoğunlukla bu durumlar, kullanıcıların kendileri için bir özelliği kullanmaya karar verdiklerinde, kendi kendine seçme durumlarıdır. In Simple Terms: ML'yi kullanarak tüm "gürültüyü" ortadan kaldırmak ve sadece saf "cause-and-effect" sinyali bırakmak. Key Idea: Örneğin, bir fintech uygulamasında yeni bir premium özelliği başlatırsınız: harcamaları analiz eden ve kişiselleştirilmiş tasarruf tavsiyeleri veren bir AI asistanı. Use Case: Diğer yöntemlerle birlikte kullanmak için harika ve genellikle daha basit yaklaşımlar uygun değilse kullanılabilir. Diğer yöntemlerle birlikte kullanmak için harika ve genellikle daha basit yaklaşımlar uygun değilse kullanılabilir. Her şeyin düzgün çalıştığından nasıl emin olabilirim? Tebrikler, bu yazıyı okuyarak uzun bir yolculuğa çıkmışsınız. Dürüst olmak gerekirse, bir düşünceniz olabilir: Bu yöntemler oldukça karmaşıktır, nasıl emin olabilirim ki doğru yaptım? And heck, that's the most correct view. The general idea of checking the correctness of estimation methods is summarized as follows: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. With RCE, it's pretty simple - we need an A/A test. We run the experiment according to our design: exactly the same metrics, splitting, etc. Except that we do NOT show our new feature to both groups. As a result, we shouldn't see any difference between them. Sometimes it makes sense to do backtesting in the same way: after the feature has worked for a while, roll it back for some traffic and check that the effect is still the same as what we saw when we did the AB test the first time. Ancak kuzi-eksperimler biraz daha karmaşıktır.Metodların her biri kendi spesifikliğine sahiptir ve uygulamanın doğruluğunu kontrol etmek için kendi özel yollarını içerebilir. Güvenlik Kontrolü Bulduğumuz etkiyi bir tesadüf ya da model hatası olmadığından emin olmak için, bir dizi “stres testi” yapıyoruz. fikri aynıdır: etkiyi meydana getirmemesi gereken koşulları yaratıyoruz. İşte bazı önemli kontroller: Placebo Tests Placebo Testleri Bu test, etkilerin veritabanınızdaki diğer nesnelerle karşılaştırıldığında benzersizliğini kontrol eder. Take, for example, the synthetic control method. We have one “treated” subject (who was exposed) and many “clean” subjects in a control group (no exposure). We pretend in turn that each of the objects in the control group was affected, and construct our “synthetic control” for them. How to do: İdeal bir dünyada, tüm bu “ sahte” testler için, gerçek durumumuz kadar güçlü bir etki görmemeliyiz. What to expect: Bu test, sonuçlarımızın benzersiz olup olmadığını gösterir. eğer yöntemimiz hiçbir şey olmamış konularda önemli etkileri bulursa, ana bulgularımızın sadece gürültü veya istatistiksel bir anomaliden, gerçek bir etkisinden kaynaklandığı da olasıdır. Why it's needed: Placebo Zamanı Örneğin, gerçek bir reklam kampanyası 1 Mayıs’ta başladıysa, 1 Nisan’da hiçbir şey olmadığında modelin 1 Nisan’da başladığını söylüyoruz. How to do it: Model, bu sahte tarihte herhangi bir anlamlı etkiyi tespit etmemelidir. What to expect: Bu, modelin olayımıza yanıt verdiğinden, verilerin rastgele dalgalanmalarına veya müdahale tarihimizde tesadüfen meydana gelen bazı mevsimsel eğilimlere tepki vermediğinden emin olmaya yardımcı olur. Why: Uzayda Placebo This test checks the reliability of your model by testing it for its tendency to produce false positives on completely independent data. Hedef verilerinizle benzer ancak kesinlikle müdahale tarafından etkilenmemiş verileriniz varsa, bunları kullanın. örneğin, bir bölgede bir promosyon başlattınız. promosyonun gerçekleşmediği başka bir bölgeden satış verileri alın ve modelinizi aynı gerçek müdahale tarihi ile uygulayın. How to do: Model bu “kontrol” verileri için hiçbir etki bulmamalıdır. What to expect: Modeliniz, uyguladığınız her yerde etkileri bulursa, hedef serisindeki sonuçlarına güvenemezsiniz.Bu test, modelin hiçbir şeyden etkileri yaratarak “halüsinasyon” olmadığını göstermektedir. Why: Karar Haritası (Sonuçların Yerine) If you've read (or scrolled) all the way down here, I guess you don't need another nice outline of why it's so important to measure the results of AI/ML implementation of a feature. Bu sizin için çok daha değerlidir, eğer yararlı bir karar verme aracı alırsanız. Çerçeve bu şekilde görünüyor. AB testi ile ölçülür. AB sınavına katılın, ciddiye alın RCE'yi hala uygulamak için farklı bölünmüş birimler ve kümeler düşünün. Aşağıda, hangisinin sizin için doğru olduğunu hızlı bir şekilde bulmak için bir Nedensel Sonuç yöntemi seçmek için bir aldatmaca sayfası vardır. Makalenin bölümüne dönün, bunu layman terimleriyle açıklıyorum. Bundan sonra, bu yöntemin kılavuzlarına ve kılavuzlarına gidin Faydalı malzemeler : Bu makaleyi yazarken kullandım ve konuya daha derin bir dalış için tavsiye ederim AI / ML çözümlerinin oluşturulmasının tam döngüsünü anlamak by ve Makine Öğrenme Sistemi Tasarımı Valery Babushkin Hakkında Arseny Kravçenko RCE dünyasına giden yol Ron Kohavi, Diane Tang ve Ya Xu Güvenilir Online Kontrolli Deneyler Nerede Detaylı BİLGİLENDİRİLECEK: Miguel Hernan ve Jamie Robins - Causal Inference: What If Causal Inference for the Brave and True Causal ML Kitabı