Yazarlar : Walker Ravina, walkerravina@google.com (Google) Ethan Sterling, esterling@google.com (Google) Olexiy Oryeshko, olexiy@google.com (Google) Nathan Bell, nathanbell@google.com (Google) Honglei Zhuang, hlz@google.com (Google) Xuanhui Wang, xuanhui@google.com (Google) Yonghui Wu, yonghui@google.com (Google) Alexander Grushetsky, grushetsky@google.com (Google) Yazarlar : Walker Ravina, walkerravina@google.com (Google) Ethan Sterling, esterling@google.com (Google) Olexiy Oryeshko, olexiy@google.com (Google) Şarkı Sözleri: Nathan Bell, nathanbell@google.com Zonguldak, hlz@google.com (Google) Şanlıurfa, xuanhui@google.com (Google) Yonghui Wu, yonghui@google.com (Google) Alexander Grushetsky, grushetsky@google.com (Google) tarafından sağlandı abstraklık Model destilasyonunun amacı, öğretmenin model bilgilerini daha hızlı, daha genelleştirilebilir, daha yorumlanabilir veya diğer istenilen özelliklere sahip bir modele sadık bir şekilde aktarmaktır. İnsan okuma becerisi, makine öğrenme model yorumlanabilirliği için önemli ve istenilen bir standarttır. Okuyabilir modeller şeffafdır ve geleneksel kaynak koduna benzer şekilde incelenebilir, manipüle edilebilir ve dağıtılabilir. Sonuç olarak, bu modeller makine öğrenme bağlamının dışında geliştirilebilir ve istenildiği takdirde manuel olarak düzenlenebilir. Önerilen destilasyon metodolojisi, bir modelin parça-lineer eğrilerle birleşik sayısal fonksiyonlarını yerleşik bir şekilde yakalamaktadır. Sonuçlanan eğrilik model temsilcileri doğru, kısadır, insan tarafından okunabilir ve yapısal olarak iyi düzenlenir. Çeşitlilik, regresyon ve sıralama görevlerinde dört veri kümesi kullanarak genel destilasyon tekniğinin ve eğrilik ayarlama algoritmamızın etkinliğini kanıtlıyoruz. CCS kavramları ve . Computing methodologies Machine learning approaches Anahtar Kelimeler Model destilasyonu; insan okunabilir; parçalı-lineer eğriler 1 Giriş Çözünürlüklü modeller yüksek bahis karar verme senaryoları için kritiktir [ Tıbbi tedavi yöntemleri, tıbbi tedavi yöntemleri, tıbbi tedavi yöntemleri, tıbbi tedavi yöntemleri, tıbbi tedavi yöntemleri, tıbbi tedavi yöntemleri, tıbbi tedavi yöntemleri, tıbbi tedavi yöntemleri ( Bireysel katkılar, sonuçların şeffaflığı, sorumluluğu ve adaletini sağlamak için incelenebilir ve anlaşılabilir olmalıdır. 21 e.g için Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anahtar Kelimeler: Anah ], model univariate şekil fonksiyonlarının bir toplamıdır, 11 X’ler n özellikleri ve fi’ler şekil fonksiyonlarıdır. Böyle bir model basit ama genellikle özellik etkileşimleri olan bir modelden daha az doğru. ve [ ] showed that adding a limited number of pairwise feature interactions allows GAM-style additive models to capture a significant fraction of the accuracy of a fully-interacting model. In many cases of interest, such feature interactions are intuitively captured with products of univariate functions, ve al 18 ya da ürün gruplarının özellikleri, Bir fonksiyonun büyüklüğü (yani fi) başka bir "konteks" fonksiyonunun (i.e.ci) bir fonksiyonu (yani gi veya gi,j) tarafından modüle edilir [32]. Gerçekten, Kolmogorov-Arnold temsil teoremi [16, 27] n girişlerinin her sürekli çok değişken fonksiyonunun 2n gibi terimlerin bir toplamı olarak temsil edilebileceğini garanti eder, Uygulamada, tek bir dış fonksiyon genellikle yeterlidir ve yorumlanabilir bir model üretir. Klasik GAM modellerinde, spline şekil fonksiyonları olarak kullanılır [ Bir başka yaygın kullanılan şekil fonksiyonu parçalı-lineer fonksiyonlardır [ Küçük miktarda değişkenler ( Ancak, doğrudan bu tür sunumları optimize etmek genellikle alternatif model sunumlarından daha az doğru modeller üretir. ve [ ] öğrenme spline GAM'lerin öğrenme bagged kararlı orman GAM'lerden daha az doğru olduğunu gösterdi. Deneyimlerimiz, Stochastic Gradient Descent (SGD) yöntemleri kullanarak parça-lineer eğrilerden oluşan GAM'lerin doğrudan optimize edilmesi için benzer sonuçlar gösterdi. Genel olarak, kararlı orman GAM'leri kullanan model temsilciliklerinin model optimizasyonu sırasında avantajı var, ancak elde edilen modeller insan tarafından okunamaz. Bu, karşılaştırılabilir doğruluk sağlayan kesin, insan tarafından okunabilir bir şekle sahip daha basit bir model olduğunda bile geçerlidir. 11 30 e.g için ve al 17 Oldukça küçük karar ormanları veya nöral ağların çok daha büyük setlerden destille edilebildiği, ancak doğrudan verilerden eğitilmediği, karmaşık modellerin doğruluğuna uymak için model destilasyon çalışmalarından ilham alınmıştır. ve ], model optimizasyonundan sonra ayrı bir süreçte okunabilir temsillere yorumlanabilir modeller destille etmeyi öneririz. Bu, başlangıç, öğrendi model temsilini nihai, yayınlanan model temsilinden ayırır. Örneğin, önerilen destilasyon metodolojisi, paketli artan karar ağacı kullanılarak eğitilen eklenti modellerine uygulanabilir [ ], yanı sıra additif nöral ağlar 5 12 17 [ 2 ] 32 ) Bu makalede, benzersiz bileşenlerden oluşan modellerin insan tarafından okunabilir temsillere dönüştürülmesi için bir teknik tanımlıyoruz, özellikle Bölümde açıklanan parça-lineer eğrilikler Destilasyon tekniğimizin çıkışı Listeleme'de gösterilmiştir ve figür COMPAS veritabanında eğitilen bir karar ormanı GAM'a yaklaşımımızı uygulayarak elde edilen parça-lineer eğilimlerin metin ve grafik temsillerini gösterir (Bölümde açıklandığı gibi). Destille edilmiş model, karar ormanı GAM modelinin kesin bir temsilidir ve insan tarafından okunabilir kaynak koduna dönüştürülür. Buradan itibaren, parça-lineer eğriliklere atıfta bulunmak için "kürtler", her bir bileşenin bir eğrili olduğu modellere atıfta bulunmak için "kürtler" ve eğrilik modellerinin veya eğriliklerin metin temsillerine atıfta bulunmak için "kod" kullanacağız. 2. İki 1 1 , 2. 1 ) Sonraki YazıSonraki YazıSonraki YazıSonraki YazıSonraki YazıSonraki YazıSonraki YazıSonraki YazıSonraki Kurşun modelleri kullanmanın faydaları hakkında ayrıntılı bilgi edinin Daha sonra Bölümde yerleşik destilasyon işlemi açıklanır. ve parçalı-lineer yaklaşım algoritması, bazen segmentli regresyon olarak adlandırılır [ ], Bölümde eğri modeller oluşturmak için Son olarak, veritabanları için deneysel sonuçları sunuyoruz: COMPAS, FICO, MSLR-WEB30K ve CWS Bölümünde Yazıyı bölümde tamamlayın 2 , 3. 4 30 5. 6 7. 2 Başlangıçlar Bu makalede kullanılan veritabanlarını, yöntemlerimizi açıklamak için belirli örnekler olarak kullanacağız.Bu nedenle, bunları ilk olarak bu bölümde tanımlıyoruz. 2.1 Bilgiler Farklı ayarları temsil etmek için aşağıdaki dört veri kümesini kullandık: sınıflandırma, regresyon ve sıralama. COMPAS veritabanı1 Broward County, Florida'daki savcılar için özel COMPAS model puanının olası ırk önyargılarına ilişkin bir ProPublica soruşturmasının [4] sonucudur. Veritabanı önyargı, adillik ve yorumlanabilirlik bağlamında kapsamlı bir şekilde incelenmiştir [8, 9, 14, 23]. Etiketler ikili ve bir bireyin bir süre içinde tekrarlanmadığını gösterir. Alıcı işlevsel karakteristik eğri (AUC-ROC) altındaki alanı sınıflayıcının doğruluğunu ölçmek için kullanırız. COMPAS 6 özelliğe sahiptir ve bunlardan dört tanesi bu makalede örnek olarak kullanılır: yaş, priors_count, length_of_stay ve c_charge_degree. FICO veritabanı [1], gerçek dünyadaki anonim kredi uygulamaları ile birlikte risk puanları içerir. Etiketler bir bireyin risk puanlarıdır. Geri dönüşüm doğruluğunu ölçmek için kök ortalama kare hatası (RMSE) kullanırız. FICO'nun 24 fea-turu vardır ve makalemizde iki özelliği örnek olarak kullanırız: MSinceMostRecentDelq, En Son Suçtan Aylar; PercentTradesWBalance, Percent Trades with Balance. MSLR-WEB30K veritabanı [19] yaygın olarak kullanılan bir öğrenme-to-rank benchmark veritabanıdır. Etiketler belge başına uygunluk yargılamalarıdır. K = 5 (NDCG@5)'te normalized discounted cumulative gain kullanıyoruz. MSLR-WEB30K hem özellik sayısı (136) hem de eğitim örnekleri sayısı (~2,000,000 per cross-validation fold) açısından önemli ölçüde daha büyüktür. Özellikler, dayanıklılık ve verimlilik temelinde açıkça kullanılabilir bir alternatif olan pwlf [13] ile kurşun yaklaşım algoritmamızı karşılaştırmak için kullanıyoruz. Makalemizde örnek olarak iki özellik kullanıyoruz: feature_0011, Body stream length feature;_0128, Inlink numarası. Chrome Web Store (CWS) veritabanı, Chrome Web Store günlüğünden kaynaklanan özel ve anonim bir veritabanıdır. Her soru, Chrome Web Store'a yapılan bir ziyaretle eşdeğerdir. Her sorunun içindeki öğeler, kullanıcıya gösterilen öğelerdir. Etiketler, tıklama, yükleme, sıralama doğruluğundan emin olmak gibi kullanıcı eylemlerine eşdeğerdir. Chrome Web Store'dan benzer, ancak farklı bir veritabanı daha önce Zhaung et al. [32]. Daha önceki çalışmalardan farklı olarak, bu durumda soru düzeyinde "konteks" özelliklerini kullanmıyoruz, bunun yerine sadece 14 öğenin düzeyinde özellikleri kullanıyoruz. Sorular da farklıdır. Her durumda, bir karar ormanı GAM destille ve destille eğri modellerinin doğruluğunu değerlendiriyoruz. COMPAS ve FICO veritabanları yüksek bahis alanlarını temsil eder [ ] aşağıda tartışılan eğri modellerinin faydaları özellikle ikna edici. FICO, MSLR-WEB30K ve CWS daha önce yorumlanabilirlik bağlamında incelenmiştir Ayrıca, MSLR-WEB30K sonuçları, bu yaklaşımın doğruluğunun küçük veri kümelerine sınırlı olmadığını göstermektedir. 21 [ 2 ] 7, 18 olarak 32 ) 2.2 Piecewise-Linear Curves Sıfır çizgi çizgisi ( ) kontrol noktalarının bir listesi S = [(xk , yk )]K k = 1 tarafından tanımlanır. kontrol noktaları arasında, çıkış y değerleri, komşu kontrol noktaları arasında lineer interpolasyon gerçekleştirerek belirlenir. en sol veya en sağ kontrol noktalarının ötesinde, çıkış değerleri komşu kontrol noktasının yk değerine sınırlandırılır. Daha resmi olarak, xk 's'lerin düzenlendiğini varsayarak, yani xk < xk +1, bir parça çizgi eğriliğin tanımını şöyle tanımlayabiliriz: PWLCurve Çoğu durumda ilgi 5 veya 6 kontrol noktası, 4 veya 5 iç segmentleri tanımlayarak, istenen davranışı yakalamak için yeterlidir. Farklı ölçekli veriler için eğrilikler ayarlamak için fx argument ile belirtilen bir opsiyonel x-transformasyon izin veririz. X-transformasyon mevcut olduğunda, tüm kontrol noktalarının giriş değerlerine ve x- değerlerine uygulanır ve daha sonra dönüştürülen alanda lineer interpolasyon gerçekleştirilir. Kimlik (varsayılan), log, log1p ve symlog1p dönüşümleri destekliyoruz. Burada symlog1p sgn(x) * log1p(abs(x)) olarak tanımlanır ve hem pozitif hem de negatif değerleri taşıyan çok değişken özellikler için uygundur. Birleştirilmiş kategorik fonksiyonlar, doğrudan giriş değerlerini farklı bir harita kullanarak çıkışlara 3 Geri Dönüşüm ve Motivasyon Anlatılabilir modeller yüksek bahis kararları için kritiktir [21] ve daha karmaşık model yapıları üzerinde birçok avantaj sağlar [ ve ]. Bu bölümde, yorumlanabilir mod-ellerin eğri modellerine nasıl destilasyon yapıldığını açıklıyoruz ve bu avantajları güçlendiriyor ve çeşitli gerçek dünya mühendislik zorluklarını ele alıyor. . 6 10 Yeni bir makine öğrenme sorunu, mevcut çözümlerin bolluğuyla kurulmuş bir yazılım mühendisliği sorunu haline getirir. 4.1 Daha fazla şeffaflık Bir model, davranışının kapsamlı bir şekilde anlaşılmasını sağlayan bir metin veya grafik gösterimi sağlarsa şeffafdır.Önerilen yöntemin daha fazla şeffaflık sağladığı bir yol, bir modelin temel özelliklerini korurken grafik görüntüleri basitleştirmektir.Çoğu zaman, açıklanabilir bir modelin şekillendiriciliğinin anlamlı ya da açık bir biçimde tartışılır. Bu iddialar kısmen doğru olsa da, genel olarak yanıltıcıdır. Belirli bir rehberlik verilmediği sürece, insanlar doğal olarak, modelin anlayışını geliştirirken deliklerin belirli ince ayrıntılarını azaltacaklardır. Anlatılabilir modellerin kesin bir gösteriye dönüştürülmesiyle, yabancı char-akteristikleri atarız ve modeli anlamak için gerekli zihinsel çabayı azaltırız. Örneğin, bir bireyin özellik_0011 (beden akışının uzunluğu) ve feature_0128 ( bağlantı numarası) özelliklerinin şekilleri hakkında ne anlama geldiği, başlangıçta öğrendiği MSLR-WEB30K modelinde görünür değildir. Gerçekten, farklı bireyler bu grafik gösterilerden niteliksel olarak farklı anlayışlar elde edebilir. Ancak, destille eğri modelinin Şekil'deki kapsama eğrileriyle temsil ettiği ek bilgiye dayanarak Yaklaşık aynı hassasiyetle, bir gözlemci modelin temel özellikleri hakkında çok daha güçlü sonuçlar çıkarabilir. yorumlanabilirliği monotonluk kısıtlamaları koyarak daha da artırılabilir. Doğru Açıklama 2. 2 6.4 Hakkında Açıkçası, destilasyon karşılaştırılabilir hassasiyetle daha basit bir model üretirken, destilasyon sürecinin başarılı olduğunu söyleyebiliriz.Ancak, destilasyonun daha düşük hassasiyetli bir model ürettiği durumlar daha fazla araştırma gerektirir, çünkü görünen “başarısızlık” genellikle öğrenciye başarıyla aktarılmamış öğretmen modelinin temel özelliklerine atfedilebilir. Bu fenomenin bir örneğini bu bölümde inceleyelim. Bu ilkeye ilişkin tam bir tartışma, bu makalenin kapsamından öte olsa da, bu fikrin, modelde bireysel işlevlerin yapısına uygulanmış “tercüme edilebilir” modeller tanımlamak için yapısal kısıtlamaların kullanımının bir uzantısı olarak görülebileceğini belirtmekteyiz. bu politikanın altında, eğer bir aday modelinin doğruluğu, önceden tanımlanmış bir sınıf ifade edici, “insan ölçekli” işlevleri kullanarak tekrarlanamazsa ( Küçük bir sayıda kısaltılmış kontrol noktası olan eğriler) onun şeffaflığı sorgulanır. İnsan yorumlanabilirliğinin belirli bir kavramını ihlal ederler. 6.2 Hakkında e.g 3.2 Yapılandırıcı düzenleme Önerilen yöntem ayrıca, optimize tabanlı normalleşme teknikleriyle tamamen uyumlu ve tamamlayıcı bir post-hoc normalleşme süreci olarak da görülebilir ( L1 / L2 cezaları veya monotonluk kısıtlamaları). düzenleme bağlamında, kısa özetleyici öncelikimiz en az açıklama uzunluğu prensibi ile tutarlıdır [ Renk seçimi ve Renk seçimi [ ] ] Küçük, bütün değerli ağırlıklarla lineer modeller motive etmek için benzer bir mantık uygulanmıştır. Kurşunların kısıtlı açıklama uzunluğu idiosinkratik davranış-ior yakalamak için sınırlı kapasite sağlar. Sonuç olarak, kurşun destilasyonu başarıyla öğretmen model fonksiyonlarından sapmalar ortadan kaldırır. ve figür Daha az segment, daha büyük etki. en kısa eğim modelini bulmak için önerilen yöntemi, kontrol noktalarının sayısını azaltarak tekrar tekrar uygulayabiliriz. Doğal olarak, bu yaklaşımın optimizasyonu, yerel destilasyon yöntemimizin sınırlamalarına tabidir (bkz. and curve approximation algorithm (see Section Farklı işlevsel temsillerle doğrudan modeller karşılaştırmak zor olsa da, ilgili kodlarının uzunluğunu ve okunabilirliğini karşılaştırmak öğreticidir. e.g 28 24 1 2. 4 ) 5 ) One practical advantage of curve-based regularization is that regularity is enforced by construction and the complexity of individual curves is readily apparent and quantifiable. Therefore, organizations that adopt curve models can set objective guidelines about model complexity that developers can anticipate when submitting model candidates for approval. Such guidelines can specify the maximum number of curve segments, maximum number of significant digits per curve control point, or monotonicity of the curve. Similar to the use of nothing-up-my-sleeve numbers in cryptography [ Çevre ve Sosyal İlişkiler Kurumu (Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İlişkiler Kurumu, Çevre ve Sosyal İ . yöneticiler, ürün yöneticileri, vb.) bu onay sürecine katılmak. 29 e.g için 3.3 Okunabilir, düzenlenebilir kod Curve model kodu, geleneksel kaynak kodu gibi okunabilir, incelenebilir, birleştirilebilir ve sürümlendirilebilir. Yeni veya aşırı koşullar altında bir eğri modelinin nasıl davranabileceğini, hipotetik “ne olursa?” senaryoları altında modelin zihinsel olarak “ değerlendirilmesiyle” anlayabiliriz. Modellerin bir geleneksel kaynak kod inceleme sürecine tabi tutulması, modelin özelliklerinin daha titiz bir incelenmesine ve okunamaz modellerle mümkün olduğundan daha fazla sorumluluk sağlar. Aslında, kaynak kod inceleme aracılığıyla “model inceleme” yaparak, aday modelin kendisinin – modelin bazı ayrı, potansiyel olarak uyumsuz açıklamaları veya eserleri değil – incelenmesini sağlar. İstenmeyen model davranışının keşfedildiği durumlarda, modelin kodu doğrudan bu tür sorunlara düzgün olarak düzenlenebilir. Örneğin, COMPAS modelinin durumunda, bir kullanıcının diğer özelliklerin katkılarını ve [ ] ayrıcalıklı özelliklerle eğitim nasıl böyle bir yaklaşım ve daha sonra bunları kaldırmak potansiyel olarak ayrıcalıklı özellikler olmadan sadece eğitim daha iyi olabilir tartışıldı. 1. ve al 2 Yüksek oranlı kararlar için modelleme şeffaflığı gereklidir [ ] Ceza adalet, finans, sağlık ve diğer alanlarda ortaya çıkan. modelin tam kaynağını basit, taşınabilir, insan okunabilir kodda sağlamak, modellerin şeffaflığını sağlar. ], evrensel olarak anlaşılabilir if-then dilde ifade edilen, eğri modeller daha fazla ifade ve genel amaçlı uygulama için erişilebilirliği feda eder. 21 3 3.4 İşbirliği modeli geliştirme Herhangi bir algoritma veya modelleme tekniği ile uyumludur. deneyler bölümünde önerilen tekniği çeşitli veri setlerinde orman GAM'leri karar vermek için uyguladık. önceki çalışma [ ] önerilen tekniği sinir ağları aracılığıyla öğrenilen GAM'lara ve sınırlı etkileşimleri ile benzer sinir ağlarına uyguladı. eğri modelleri etrafında işbirliği geliştirme organizasyonu, mühendislerin (potansiyel olarak büyük ölçekli) bir modelin bileşenlerini optimize etmek için çeşitli araçları, teknikleri veya platformları uygulayabilmelerini sağlar. mühendisler üretkenliklerini en üst düzeye çıkarabilecek bir modelleme yaklaşımını seçme özgürlüğüne sahiptir, aynı zamanda mühendislerin birden fazla IDE, kod biçimlendirici veya linteri kullanarak yazılımı işbirliği içinde geliştirmelerini sağlar. 32 3.5 Doğrudan Görevlendirme Kurşun modellerinin değerlendirilmesi hızlı ve kolaydır. Değerlendirme minimum hesaplama gerektirdiğinden - kurşun başına sadece birkaç yüzen nokta operasyonu - kurşun modellerinin performans eleştirel uygulamalar için uygundur. Kurşunlar, küçük çaba ile çeşitli dillerde veya sistemlerde yerel olarak desteklenebilecek taşınabilir, platform-agnostik bir temsilidir. 2 segmentli bir COMPAS modelinin C++ uygulamasını gösterir. Genel olarak, eğrilik modellerinin uygulanması çok sayıda entegrasyon seçeneği sunması nedeniyle basittir. eğrilikler yapılandırma dosyalarına yerleştirilebilir, CGI parametreleriyle iletilebilir, karmaşık uygulamalara el ile yerleştirilebilir, sistematik olarak bir hedef temsiline çevrilebilir veya birkaç artışlı uzantı ile mevcut çalıştırma sistemleri tarafından değerlendirilebilir. 2 4 LOCALIZED DISTILLATION Destilasyon sürecimiz iki giriş gerektirir: bir veya daha fazla univariate fonksiyonu içeren bir öğretmen modeli ve temsilci bir veri kümesi (genellikle eğitim verileri). Metodumuz, (1) her bir univariate fonksiyonu izole olarak destille ederken ve (2) her bir univariate fonksiyonu yaklaşırken ortalama kare hatası (MSE) için optimize ederiz. Bölümde açıklanan algoritmayı kullanarak If the teacher model contains univariate functions nested within other univariate functions we replace the source functions in a bottom-up fashion. Otherwise, all non-nested functions can be approximated in parallel. PWLCurve 5. Son model, her orijinal univariate fonksiyonunu kendi Bir yaklaşım. PWLCurve Geleneksel olarak, model destilasyonu, orijinal öğretmen model eğitimi ile aynı (veya en azından benzer) hedefi kullanarak küresel optimizasyon içerir. Bu hedef, bir noktalı MSE hedefi ile farklı olabilir. Örneğin, sıralama hedefleri genellikle çift yönlü tanımlamalar içerir. Neden o zaman tüm koşullarda bir MSE hedefi kullanarak yerel optimizasyonu savunuyoruz? Birincil cevap, yorumlanabilir modeller bağlamında, her kaynak fonksiyonu ve hedef fonksiyonu arasında güçlü bir tek-bir uyumluluğu korumada önemli bir değere sahip olmasıdır. Önemli olan, bu, öğretmen modelindeki her şekil fonksiyonu ilgili eğri değiştirme karşılığında görselleştirmemize neden olur. Ek olarak, destilasyon başarısızlıklarını atırabil x1'in şekil fonksiyonunun bir eğri tarafından iyi yaklaşılmadığını hemen söyleyebiliriz. deneyleri bölümünde, neredeyse tüm şekil fonksiyonlarının anlamlı davranışının üç ila beş segmentli eğrilerle doğru bir şekilde yakalanabileceğini gösteririz. 5 Küresel optimizasyon yaklaşımı ( Hedef modelindeki tüm eğriliklerin parametrelerini aynı anda optimize etmek) bir problem spesifik metrik kullanılarak daha doğru bir sonuç elde edebilir, hesaplamaya göre daha pahalıdır ve öğretmen modeliyle aynı bir-bir karşılaştırma eksikliğine neden olur, destilasyon başarısızlıklarını teşhis etmek daha zordur. i.e 5 Parça-lineer eğrilik yaklaşımı Univariate sayısal fonksiyonu f (x) → y göz önüne alındığında, hedefimiz bir c (x) → y, örnek verileri üzerinde MSE (c(x), f (x)) en aza indirerek f (x)'yi doğru bir şekilde yaklaştırır. Her c (x) eğitilmiş modelde karşılık gelen f (x) ile değiştirildiğinde kaç metrik kayıp meydana gelir. PWLCurve i.e Bunun yanı sıra, metodolojinin pratik başarısı da- Yaklaşım algoritmasının sağlamlığı ve verimliliği üzerinde duruluyor. Model eğitim borularında eğri destilasyonun sistematik kullanılmasına izin vermek için, yaklaşım algoritması minimum konfigürasyon ile çalışmalıdır. Karmaşık hiperparametreler giriş için önemli bir engel oluşturur. , parçalı lineer yaklaşım algoritmamız, böylece pratikte kullanıcıların sadece ve Parametreler: Parametrelere göre = 5 bölüm ve =False yüksek hassasiyet elde etmek için yeterlidir (eksperimentlerimiz tarafından kanıtlandığı gibi), model daha az segmentle veya monotonluk kısıtlamaları ile daha fazla basitleştirilebilir olup olmadığını araştırmak istenir. . işlev başına 1 saniyeden az) Jupyter dizüstü bilgisayarları aracılığıyla etkileşimli analiz sağlayan [ ] veya diğer araçlar.Bu pratik düşünceler tasarımda çeşitli kararları bilgilendirdi . In particular, we prefer an algorithm which quickly and reliably yields high accuracy results with minimal configuration to one which sacrifices either of these practical considerations for marginal gains in accuracy. pwlfit num_segments mono num_segments mono e.g 15 pwlfit Bu bölümde dikkat çekici özellikleri ve özellikleri anlatacağız. İlgilenen okuyucuları, kamuya açık kaynak kodunu incelemeye davet ediyoruz. [Bölüm] ] Daha fazla detay için. pwlfit pwlfit 22 5.1 Algoritmalar (x, y, ağırlık) noktaların bir listesi ve istenen sayıda segment k'ı göz önünde bulundurarak, bir to minimize mean squared error, MSE. A k segmentleri ile k + 1 kontrol noktaları ile karakterize edilir – x düğmeleri ve ilgili y düğmeleri bir dizi. sadece x düğmeleri vererek, optimum y düğmeleri ve sonuçlanan hata için lineer en az kare ifadeyi çözebiliriz. doğru x düğmeleri bilmediğimiz için, olası x düğmeleri aramak ve hatayı hesaplamak için her adımda en az bir kare ifadeyi çözmek.2 PWLCurve PWLCurve Performans için, tesadüfen büyük veri kümelerini birleşmeden önce yaklaşık bir milyon noktaya indirdik. Sınıflandırmanın maliyetini azaltmak için aşağı indirdik, bu da büyük veri için çalıştırma süresini domine ediyor. Bu aşağı örnekleme önemsiz bir kalite kaybına neden oluyor. Çalıştırma süresini daha da azaltmak için x düğümleri için arama alanını diskretize ediyoruz. Verilerden x değerleri, toplu ağırlıklı olarak eşit ölçüde aralıksız olarak, ve o örneklenen aday setinden x düğmeleri kombinasyonları arama. varsayılan 100 örnekleri kullanarak, bizim adaylar toplu ağırlıklı olarak (0%, 1.01%, . . . , 98.9%, 100%) x değerleri. 5.1.1 Başlangıç aşamasındaki değişiklikler num_samples Örneğin, COMPAS veritabanındaki uzunluk_of_stay özelliğindeki değerlerin% 55'i 0 veya 1'dir. Parametre olarak 5.1.2 Kütle Diskretizasyonu num_samples Her lineer en az kare adımının maliyetini en aza indirmek için, verileri Ek'te yazdırılan yeni bir tekniği kullanarak sıkıştırıyoruz. verilmiş 2 Adet Çift Çift Çift Çift Çift Çift Çift Çift Çift Çift - 1) sentetik noktalar: Her iki aday x düğüm arasında lineer olan herhangi bir fonksiyon için, bu, ayrıntılı aday seçimimiz tarafından garanti edilir. 5.1.3 Kısaltma yaptırımları B için num_samples num_samples 𝑥-knots, these condensed points perfectly recreate the loss of that function over the full data set. We run our linear least squares solver on the condensed points instead of the full data set, which reduces our cost per solve from O(num_points) to O( ). This is purely a performance optimization, with no quality implications. num_samples Soruşturma işleminden sonra çözüm alanı num_samples num_segments+1 x-knot kombinasyonlarından oluşur, bu hala kapsamlı bir arama için çok büyük. Arama işlemini incelemek için, bir kerede bir x-knot optimize eden açgözlü bir arama heuristiği kullanırız. Özel olarak, sürecin her aşamasında, her aday x-knot ile ilişkili hatayı değerlendiririz ve en az hata veren adayı tutarız. Bu yaklaşımla, iki aşamada optimize ediyoruz. Çözümümüz olarak tek bir x-knot ile başlayabiliriz ve çözümümüzün (num_segments + 1) x-knotlarından oluşana kadar en iyi kalan aday x-knot'u açgözle ekleyebiliriz. Daha sonra çözümümüzde bir x-knot'u bir kerede ortadan kaldırarak 5.1.4 Global Optimization via Greedy Search . pwlfit can impose a minimum and/or maximum slope on the solution via bounded least squares. Instead of solving the least squares expression directly for the 𝑦-knots, we solve it for the deltas between adjacent 𝑦-knots. 5.1.5 Slope Constraints & Monotonicity. Then we impose a min/max slope by bounding the deltas. Slope restrictions can be used to limit the spikiness of curves, but we primarily use them to impose monotonicity. For example, specifying =0 restricts to monotonically non-decreasing functions while =0 restricts to monotonically non-increasing functions. Specifying a 0 veya a'dan daha büyük 0'dan az olan fonksiyonlar doğrudan artan veya azalan fonksiyonlara sınırlıdır. can deduce the direction of monotonicity by applying iso-tonic regression [ ] to the condensed points. We fit an increasing and a decreasing isotonic regression, and use the direction that minimizes mean squared error. The user can override this behavior by specifying the direction explicitly or by disabling monotonicity entirely. min_slope max_slope min_slope max_slope pwlfit 26 can also interpolate in a transform of feature engineering. x değerlerini öğrenmeden önce dönüştürür. will choose a candidate 𝑥-transformation, , among , ya da x değerlerinin aralığını temel alarak ve daha sonra bu dönüşümle devam edin, eğer bu, Pearson ilişkisini artırırsa and 𝑦 by a noticeable amount over the identity transformation. Alternatively, the user can specify any strictly increasing 1D transform or specify the identity transform to disable transformation. 5.1.6 Giriş Dönüşümleri pwlfit pwlfit pwlfit fx log log1p symlog1p fx 6 Deneyler 6.1 Distillation Accuracy Table and Figure Çeşitli veriler üzerinde yapılan deneylerden elde edilen sonuçları gösterin. sonuçların tam bir dizi Tablo'da bulunabilir in Appendix The results of applying our distillation technique with our piecewise-linear approximation algorithm are presented as . We present results from using various numbers of segments with and without a monotonicity restriction and otherwise default parameters. In all cases we truncated the control points to four significant digits. We also present several additional reference points to provide context. 1 4a 2 A. için pwlfit • We directly learn the curves with the Adadelta[ ] optimizer. We initialize the 𝑦 values of the control points as zeros. For the 𝑥 values of the control points we use the quantiles for numerical features ( . 0%, 50%, 100% for a three point, two segment curve) or all unique values for categorical features. We then apply Adadelta to optimize the 𝑦 values. Simultaneously optimizing 𝑥 and 𝑦 values was also attempted, but the results were always worse than optimizing SGD: 31 e.g için 𝑦 values alone. • Neural Additive Models (NAMs) [ ] is another method for learning interpretable models proposed by Agarwal . We present their result for reference where applicable. NAM: 2 et al • We train a bagged, boosted decision forest allowing feature interactions to demonstrate the accuracy of a non-interpretable, high-complexity "black box" model. Interacting forest: • : We train a bagged boosted decision forest GAM by restricting each tree to use only one feature. This model is also the source model for our distillation technique. GAM forest • We apply our distillation technique using an alternative piecewise-linear approximation algorithm pwlf: pwlf [13]. Her bir veritabanında beş katlı çerçeve doğrulamayı kullandık ve metrik ortalamayı ve örnek standart ayrımını katlar arasında gösterdik. Doğruluğu değerlendirmek için üç farklı metrik kullandık: AUC-ROC, RMSE ve NDCG@5 üç farklı sınıflandırma, regresyon ve sıralama görevi için. Deneyim kurulumumuzla ilgili daha fazla ayrıntı Appendix'te bulunabilir. and further details on the datasets, labels, and metrics can be found in Preliminaries A 2.1. Our results show that applying our distillation technique with 4-5 segments with CWS hariç tüm veri setleri için kaynak GAM orman ve NAM modelleri kadar hassas olan modeller üretir. below. In the case of the COMPAS dataset these models are as accurate as full complexity models. Applying our technique with produces competitive results, albeit less accurate on the MSLR-WEB30K dataset. By contrast, the results show that learning curves directly via SGD is less general. On the FICO and CWS datasets more segments are required to achieve accuracy comparable to the GAM forest models. On the MSLR-WEB30K dataset the accuracy is inferior even with many more segments. pwlfit 6.2 pwlf The consistent accuracy of applying our distillation approach with Bu dört veri kümesi ve üç ayrı görev (sınıflandırma, regresyon, sıralamayı öğrenme) işlemin belirli veriler veya kullanılan üst düzey hedefe karşı hassas olmadığını gösterir. pwlfit 6.2 Distillation Failures In Section we explained how distillation yielding a model with inferior accuracy warrants further investigation because the purported "failure" can often be attributed to essential yet non-interpretable characteristics of the teacher model not transferring to the student model. The accuracy gap observed on the CWS dataset is an example of this phenomenon. Figure bu ilanı beğen Ağu 20 Lesson (London) resim bu ilanı gizle geri yükle bu ilanı geri yükle bu ilanı geri yükle . ~50% of the gap is recovered). 3.1 5 i.e Yukarıdaki iki hatayı tespit etmek için aşağıdaki yöntemi kullandık. • Begin with the original teacher model. For each submodel compute the metric delta against the teacher model from distilling only that submodel and no others. • Perform the above on each cross validation fold using the validation set and average the metric deltas across folds. • Sort the features by their associated metric delta to determine the worst distillations. 6.3 Efficiency & Robustness The experiments of the previous section showed that more accurately distills the source model across datsets than . We also found on the MSLR-WEB30K dataset that is more efficient and robust than . Figure shows per fit metrics from the first fold of the MSLR-WEB30K dataset as the number of segments varies without monotonicity. The top plot shows the time in seconds, as measured on a ThinkStation P520, to fit each of the 136 submodels of the source GAM forest. We find that is faster in the average case as the number of segments increases, and has a narrower distribution. The bottom plot shows the RMSE of each fit against the 136 submodels of the source GAM forest. We again find that performs favorably in the average case with a narrower runtime distribution. pwlfit pwlf pwlfit pwlf 4b pwlfit pwlfit Buna dikkat etmek gerekir ki, by default does not perform any down-sampling. For the MSLR-WEB30K dataset running without any downsampling was prohibitively expensive. For all of our experi-ments we ran Ön işleme indirme numarası ile 1000 rastgele örneğe. karşılaştırıldığında hız ve kaliteyi dengelemek için adil bir nokta bulduk . It is of course possible with both algorithms to modify the number of samples used to strike a different trade-off between run time and accuracy. pwlf pwlf pwlf pwlfit 6.4 Monotonicity As discussed in Section can fit monotonic curves with automatic direction detection. Figure COMPAS veritabanı için monoton ve monoton olmayan modeller karşılaştırılırken, FICO, MSLR-WEB30K ve CWS için, monoton olmayan modeller daha doğrudur. 5, pwlfit 4a Uygun özellikler ile ilgili monotonluk, yorumlanabilir modellerde arzu edilir.Bu durumlarda, daha az hassas olsa bile, monoton olmayan bir modelden monoton bir model tercih edilebilir. compares monotonic and non-monotonic 5-segment curve models on the FICO dataset for the MSinceMostRecentDelq and PercentTradesWBalance features. Given the semantic meaning of these features, it is desirable from a transparency and incentives standpoint for the model output to be monotonic with respect to each of them. 6 7 CONCLUSION We have introduced a novel method for distilling interpretable models into human-readable code using piecewise-linear curves and demonstrated its efficacy on four datasets. We have shown that curve models match or outperform the accuracy achieved by other additive models. On smaller datasets, curve models match the accuracy of more complex models, like interacting decision forests. Our localized distillation methodology is applicable to any model containing univariate numerical functions and is straightforward to implement using the publicly-available library. pwlfit [22] We have explained how curve model distillation reinforces interpretability and addresses a variety of real-world engineering challenges. Curve models are 1) transparent, 2) well-regularized, 3) easy to analyze for presence of biases or other fairness issues, and 4) can be directly edited or improved outside the context of machine learn-ing to fix the aforementioned fairness issues. Distilling models into human-readable code allows one to address novel machine learning problems using well-established software engineering methods. Curve models can be improved by multiple contributors in parallel, reviewed, and made to systematically follow best practices. Curve models are well-suited for production applications, since they can be natively supported in many languages, are easy to deploy, and fast to evaluate. ACKNOWLEDGMENTS Vytenis Sakenas, Jaime Fernandez del Rio, Benoit Zhong ve Petr Mitrichev, deneylerimizde kullanılan algoritmalar ve optimizasyon altyapılarını destekledikleri ve sağladıkları için teşekkür ederiz. Ayrıca, deneylerimize yardımcı geri bildirim ve ayrıntılı incelemeler için Paul Heymann, Diego Federici, Mike Bendersky, Paul Haahr ve Petr Mitrichev'e teşekkür ederiz. Son olarak, Xinyu Qian, Janelle Lee, Po Hu ve Chary Chen'e deneylerimiz için CWS veri setini hazırladıkları için teşekkür ederiz. REFERENCES [1] 2018. FICO Explainable Machine Learning Challenge. https://community.fico. Anahtar Kelimeler: Makine Öğrenme Çözümleri [2] Rishabh Agarwal, Nicholas Frosst, Xuezhou Zhang, Rich Caruana ve Geoffrey E. Hinton. :cs.LG/2004.13912 [3] Elaine Angelino, Nicholas Larus-Stone, Daniel Alabi, Margo Seltzer, and Cynthia Rudin. 2017. Learning Certifiably Optimal Rule Lists. In . ACM SIGKDD Bilgi Keşfi ve Veri Madenciliği Uluslararası Konferansı (KDD ’17) [4] Julia Angwin, Jeff Larson, Surya Mattu, and Lauren Kirchner. 2016. Machine bias: There’s software used across the country to predict future criminals. 23 (2016). And it’s biased against blacks. ProPublica [5] Cristian Buciluundefined, Rich Caruana, and Alexandru Niculescu-Mizil. 2006. Model Compression. In . 535–541. 12. ACM SIGKDD Bilgi Keşfi ve Veri Madenciliği Uluslararası Konferansı (KDD ’06) [6] Rich Caruana, Yin Lou, Johannes Gehrke, Paul Koch, Marc Sturm, and Noemie Elhadad. 2015. Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-Day Readmission. In . 1721–1730. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’15) [7] Chaofan Chen, Kangcheng Lin, Cynthia Rudin, Yaron Shaposhnik, Sijia Wang, and Tong Wang. 2018. An Interpretable Model with Globally Consistent Explanations for Credit Risk. arXiv :cs.LG/1811.12615 [8] Alexandra Chouldechova. 2017. Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments. 5, 2 (Eylül 2017), 153–163. Big Data https://doi.org/10.1089/big.2016.0047 [9] Julia Dressel ve Hany Farid. 4, 1 (2018). Science Advances https://doi.org/10.1126/sciadv.aao5580 [10] Mengnan Du, Ninghao Liu ve Xia Hu. 2019 yorumlanabilir makine öğrenimi için teknikler. 63, 1 (Ocak 2019), 68–77. Commun. ACM https://doi.org/10. 1145/3359786 [11] Trevor Hastie and Robert Tibshirani. 1986. Generalized Additive Models. 1, 3 (08 1986), 297–310. Statist. Sci. [12] Geoffrey Hinton, Oriol Vinyals, ve Jeff Dean. 2015 Bir sinir ağındaki Bilgi Destilasyonu. arXiv :stat.ML/1503.02531 [13] Charles F. Jekel and Gerhard Venter. 2019. . pwlf: Bir Python Kütüphanesi 1D Sürekli Parçalı Lineer Fonksiyonlar https://github.com/cjekel/piecewise_ linear_fit_py [14] Jon Kleinberg. 2018. Inherent Trade-Offs in Algorithmic Fairness. In . Abstracts of the 2018 ACM International Conference on Measurement and Modeling of Computer Systems (SIGMETRICS ’18) [15] Thomas Kluyver, Benjamin Ragan-Kelley, Fernando Pérez, Brian Granger, Matthias Bussonnier, Jonathan Frederic, Kyle Kelley, Jessica Hamrick, Jason Grout, Sylvain Corlay, Paul Ivanov, Damián Avila, Safia Abdalla, and Carol Willing. 2016. Jupyter Notebooks – a publishing format for reproducible computational workflows. In , F. Loizides and B. Schmidt (Eds.). IOS Press, 87 – 90. Positioning and Power in Academic Publishing: Players, Agents and Agendas [16] A. K. Kolmogorov. 1957 Bir değişkenin sürekli fonksiyonlarının birden fazla değişkenin sürekli fonksiyonlarının yüklenmesiyle ve eklemiyle temsil edilmesi. 114 (1957), 369–373. Doklady Akademii Nauk SSSR [17] Yin Lou, Rich Caruana, and Johannes Gehrke. 2012. Intelligible Models for Classification and Regression. In . 150–158. Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’12) [18] Yin Lou, Rich Caruana, Johannes Gehrke ve Giles Hooker. 2013 Çeşitli etkileşimlerle Hassas Akıllı Modeller. 623 ile 631 arasında. Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’13) [19] Tao Qin and Tie-Yan Liu. 2013. Introducing LETOR 4.0 Datasets. abs/1306.2597 (2013). Kuralları http://arxiv.org/abs/1306.2597 [20] Tao Qin, Tie-Yan Liu, and Hang Li. 2010. A general approximation framework for direct optimization of information retrieval measures. 13, 4 (2010), 375–397. Bilgi Geri Dönüşüm [21] Cynthia Rudin. 2018. Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead. arXiv :stat.ML/1811.10154 [22] Ethan Sterling and Walker Ravina. 2019. ve . pwlfit: A Piecewise-Linear Curve Fitting Library https://github.com/google/pwlfit [23] Sarah Tan, Rich Caruana, Giles Hooker, and Yin Lou. 2018. Distill-and-Compare: Auditing Black-Box Models Using Transparent Model Distillation. In 303 ile 310 arasında. Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society (AIES ’18) [24] Berk Ustun and Cynthia Rudin. 2014. Methods and Models for Interpretable Linear Classification. arXiv :stat.ME/1405.4047 [25] Wikipedia. 2020 Bhatia-Davis eşitsizliği. [Online; 3 Eylül 2020 tarihinde erişilmiştir]. http://en.wikipedia.org/w/index.php? title=Bhatia%E2%80%93Davis%20inequality&oldid=875899600. [26] Wikipedia. 2020 Isotonik regresyon. [Online; accessed 30-November-2020]. http://en.wikipedia.org/w/index.php?title= Isotonic%20regression&oldid=989717822. [27] Wikipedia. 2020. Kolmogorov–Arnold representation theorem. [Online; 10 Ağustos 2020 tarihinde erişilmiştir]. http://en.wikipedia.org/w/index.php?title=Kolmogorov%E2%80%93Arnold% 20representation%20theorem&oldid=964097101. [28] Wikipedia. 2020. Minimum description length. [Online; ac-cessed 12-August-2020]. http://en.wikipedia.org/w/index. php?title=Minimum%20description%20length&oladh=965620302. [29] Wikipedia. 2020. Nothing-up-my-sleeve number. [Online; accessed 12-August-2020]. http://en.wikipedia.org/w/ index.php?title=Daha Fazlası%20Number&oladh=972510276. [30] Wikipedia. 2020 Bölünmüş regresyon. [Online; accessed 10-August-2020]. http://en.wikipedia.org/w/index.php? Başlık=Segmentli%20regresyon&roq=910888930. [31] Matthew D. Zeiler. 2012. ADADELTA: An Adaptive Learning Rate Method. abs/1212.5701 (2012). arXiv CoRR :1212.5701 http://arxiv.org/abs/1212.5701 [32] Honglei Zhuang, Xuanhui Wang, Michael Bendersky, Alexander Grushetsky, Yonghui Wu, Petr Mitrichev, Ethan Sterling, Nathan Bell, Walker Ravina, and Hai Qian. 2021. Interpretable Ranking with Generalized Additive Models. In . to appear. 14. ACM Uluslararası Web Arama ve Veri Madenciliği Konferansı (WSDM ’21) Deneysel Detaylar A.1 Cross Validation Tüm veritabanlarında beş katlı doğrulama yaptık. • İÇİN : The datasets were split into 5 equal parts. Each part was used once as a test set (20%) with the remaining parts as the training set (80%). We used the same random folds as in the NAM paper [ ]. No validation set was used given the small size of the data. Instead we used out of bag evaluation wherever a validation set would be used (see below). COMPAS & FICO 2 • İÇİN : We used the predefined folds and partitions from the original dataset. For each fold it allocates 60% for training 20% for validation and 20% for testing. MSLR-WEB30K • : We used a dataset of 60,000 queries and 2,690,439 items with an average of ~44 items per query. The dataset was split into 5 equal parts. Each part was used once as a test set. Of the remaining parts 80% was used as training and 20% as validation. Overall this resulted in 64% for training, 16% for validation and 20% for test for each fold. CWS A.2 Ensemble Learning SGD ve ağaç modelleri için, MSLR-WEB30K ve CWS için, sorgular rastgele torbaya bölünmüştür. Diğer veri setleri için, bireysel örnekler rastgele torbaya bölünmüştür. Destilasyon tekniğimizde, setleri tek bir parçaya destille ettik. per feature. When learning the curves directly via SGD, we averaged the learned 𝑦-coordinate values across bags to obtain the final model. PWLCurve A.3 Loss Functions We trained SGD and tree models using log-loss for the COMPAS dataset, mean squared error (MSE) for the FICO dataset, and ranking loss (ApproxNDCG [ ]) MSLR-WEB30K ve CWS veri kümeleri için. 20 A.4 Hyper-parameters For the COMPAS, and FICO datasets hyper-parameters were tuned using out of bag evaluation on the training set of the first fold. For MSLR-WEB30K and CWS, we used the validation sets of the first fold. • We tuned the batch size in {128, 256, 512, 1024, 4096}. We used the Adadelta [ ] optimizer and tuned a sufficient maximum number of steps for convergence. No other pa-rameters were tuned. SGD: 31 • We trained depth 5 trees using an inter-nal boosted forest algorithm. We tuned a sufficient maximum number of steps for convergence. No other parameters were tuned. Interacting forest: • İÇİN We trained depth 3 trees restricted to using a single feature with an internal boosted forest algorithm. We tuned a sufficient maximum number of steps for convergence. No other parameters were tuned. GAM forest: Tüm durumlarda, ayarlanmış maksimum adım sayısı için modelleri eğittik ve daha sonra eğitimden sonra modelleri kısaldık. Truncation, en erken adımın hiçbir sonraki adımın güvenilir bir zafer sağladığı ilk adımı seçmeye çalıştığı güven tabanlı bir kısaltma algoritmasını kullandı. A.5 Code The GitHub repository for [ ] bu makalede gösterilen analizleri uygulayan ve destilasyon teknikimizi uygulayan birkaç Jupyter not defterini içerir. lütfen eşlik eden veri dosyalarını ve Jupyter not defterlerinin uygun sürümlerini almak için v0.2.0 sürümüne bakın. pwlfit 22 B LINEAR CONDENSE Lineer kondensasyon, parçalı-lineer eğri ayarlarımızın çalıştırma süresinin karmaşıklığını azaltmak için tasarlanmış bir veri optimizasyonudır. B.1 Motivasyon / Genel Bakış picks a set of candidate 𝑥-knots and searches through combinations of those 𝑥-knots. For each combination considered, it solves a linear least squares expression for the ideal 𝑦-knots, calculates the resulting squared error, and prefers the combination that yields the lowest error. pwlfit Each solve is linear in the size of input, which is slow for large data. We could downsample to save compute at the cost of accuracy. Instead, we introduce a technique to save compute at no cost in accuracy. We condense the data into O(#𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠) synthetic points. These synthetic points perfectly recreate the true squared error over the full data for every Daha sonra gerçek noktalar yerine sentetik noktalar üzerinde optimize ediyoruz. PWLCurve Bu mümkün, çünkü aday x düğmeleri önceden biliyoruz. bu x düğmeleri üzerinde tanımlanan her zaman adaylar kümesindeki herhangi bir bağımsız x düğmeleri arasında lineer olacaktır. teoremde gösterdiğimiz gibi, iki noktaya kadar çok sayıda noktayu iki noktaya kadar tahsis edebiliriz, böylece lineer düğmeler bütün sette olduğu gibi bu iki noktaya eşittir. Tüm veriler üzerinde olduğu gibi bu sentetik noktalarda da aynıdır. (Her birinde aynı olduğu için güvenli bir şekilde göz ardı ettiğimiz bir tutarına kadar) PWLCurve PWLCurve ) PWLCurve B.2 Tanımlamalar For convenience, we take standard definitions and specialize them for weighted 2D points. Bir ‘parça’ formun gerçek değerli üçlü (x, y, ağırlık) ağırlığına işaret etsin 0. Definition B.1. > Bir ‘şerit’ form f (x) =mx + b, m, b, x ∈ R için bir işlevi ifade etsin. B2 tanımlaması For any function 𝑓 : R → R and finite point set 𝑃, define the squared error 𝑆𝐸( 𝑓 , 𝑃) as the sum of ( 𝑓 (𝑥) −𝑦)2 · 𝑤𝑒𝑖𝑔ℎ𝑡 for each point in 𝑃. If 𝑃 is empty, we consider the squared error to be 0. Definition B.3. For any finite point set 𝑃, define the ‘best fit line’ 𝑏𝑒𝑠𝑡 𝑓 𝑖𝑡𝑙𝑖𝑛𝑒 (𝑃) as the line 𝐿 that minimizes 𝑆𝐸(𝐿, 𝑃). In the degenerate case where multiple lines minimize 𝑆𝐸, let the best fit line be the solution with zero slope, and if multiple solutions have zero slope, let the best fit line be the solution with a zero 𝑦-intercept. B4 tanımlaması Eğer nokta kümesi boş ise, her satırın aynı kare hatası vardır, bu yüzden tanımımız f (x) = 0'yu en uygun satır olarak seçer. Eğer nokta kümesi boş değilse ama tüm noktaları aynı x'ye sahipse, o zaman x'de doğru değeri olan herhangi bir satır, kare hatayı en aza indirir, bu yüzden tanımımız yatay satır seçer. B3 Teorisi Teorisi B5 p için 𝑃 ′ Bir dizi noktaya gelince , we can construct a set İki ya da daha az sayıda bu tür Bu özellikler arzu edilebilir, çünkü (2) bize naif O(N M) yerine O(N + M)'deki N noktaları bir veri kümesi üzerinde M çizgilerinin kare hatasını hesaplamamıza izin verir ve (1) bu özelliği çizgilerden korolarda parçalı-lineer eğriliklerin yararlı bir sınıfa genişletmemize izin verir. Remark. Note that the points in 𝑃 ′ are constructed, rather than chosen from 𝑃. The construction of 𝑃 ′ is implemented in [ gibi pwlfit 22 linear_condense.linear_condense. X, Y ve W'nin x, y ve P'nin ağırlık değerlerini temsil etsin. P'nin boş olduğu trivial durumunu atarız; bu durumda, boş bir P ′ gereksinimlerini karşılamaktadır. Aynı şekilde, min(X ) = max (X ) olduğu durumunu atarız çünkü P ′ = {Centroid (P)} istenen özelliklerimizi yerine getirir. Bu durumlar çözüldüğünde, bu kanıtın geri kalanı için min(X)'in Max için x) < İlk olarak, koordinat sistemini yeniden yapılandırırız, böylece kökeni P'nin merkezidir ve y = 0 en uygun çizgidir. (Bu, matematiği basitleştirir.) B.3.1 Reframe the Coordinate System. 𝐶𝑒𝑛𝑡𝑟𝑜𝑖𝑑 (𝑃) = (𝑋 · 𝑊 /𝑠𝑢𝑚(𝑊 ), 𝑌 · 𝑊 /𝑠𝑢𝑚(𝑊 )). We translate the coordinate frame by this centroid so that, under the new coordinates, 𝐶𝑒𝑛𝑡𝑟𝑜𝑖𝑑 (𝑃) = (0, 0). After translation, 𝑋 · 𝑊 = 0 and 𝑌 ·𝑊 = 0. Ek olarak, koordinat sistemini en uygun çizginin eğimiyle kaydırdık: Y'yi Y − X · eğimiyle (en iyi f itline (P) ) değiştirdik. başlangıçta centroid ile, en uygun çizginin eğimi Covariance (X, Y, W ) / V ariance (X, W ) = Yeni koordinat çerçevesi altında, SE(en iyi f itline (P), P) = SE(y = 0, P) = Y 2 ·W We will determine 𝑃 ′ under this new coordinate system. Afterwards, we can easily convert 𝑃 ′ back to the original coordinate system by reversing the skew and the translation. We will express 𝑆𝐸(𝑙𝑖𝑛𝑒, 𝑃) as 𝑆𝐸(𝑏𝑒𝑠𝑡 𝑓 𝑖𝑡𝑙𝑖𝑛𝑒 (𝑃), 𝑃) plus leftover terms. From that, we will derive a 𝑃 ′ such that 𝑆𝐸(𝑙𝑖𝑛𝑒, 𝑃 ′ ) equals those leftover terms. B.3.2 Squared Error of an arbitrary line. Eğer y = mx + b ise, SE(y = mx + b, P) = (mX + b − Y) 2 · W = (m2X 2 + 2bmX − 2mXY + b 2 − 2bY + Y 2) · W. In our coordinate frame, 𝑋 ·𝑊 = 0, 𝑌 ·𝑊 = 0, and 𝑋𝑌 ·𝑊 = 0. So 𝑆𝐸(𝑦 = 𝑚𝑥 + 𝑏, 𝑃) = (𝑚2𝑋 2 + 𝑏 2 + 𝑌 2 ) ·𝑊 . 𝑌 2 ·𝑊 = 𝑆𝐸(𝑏𝑒𝑠𝑡 𝑓 𝑖𝑡𝑙𝑖𝑛𝑒 (𝑃), 𝑃). Therefore, SE(y = mx + b, P) = m 2X 2 ·W + b 2 ·W + SE(en iyi f itline (P), P). m 2X 2 ·W + b 2 ·W = SE(y = mx + b, P) − SE(en iyi f itline (P), P). B.3.3 P ′ üzerinde kare hatası. B.3.3 P ′ üzerinde kare hatası. SE(y = mx + b, P ′ ) = SE(y = mx + b, P) − SE(en iyi f itline (P), P) Tüm çizgiler için mx+b ⇐⇒ (mX ′+b−Y ′ ) 2 ·W ′ = m2X 2 ·W +b 2 ·W tüm çizgiler için y = mx + b. The above equation can be viewed as a quadratic polynomial in the two variables 𝑚 and 𝑏. To hold for all values of 𝑚 and 𝑏, the coefficients of each 𝑚𝑐 𝑏 𝑑 must be equal on both sides of the equation. Then the equation holds iff: 1. 𝑋 ′2 ·𝑊 ′ = 𝑋 2 ·𝑊 , and 2. 𝑋 ′ ·𝑊 ′ = 0, and 3. 𝑠𝑢𝑚(𝑊 ) = 𝑠𝑢𝑚(𝑊 ′ ), and 4. 𝑌 ′ ·𝑊 ′ = 0, and 5. 𝑌 ′2 ·𝑊 ′ = 0, and 6. 𝑋 ′𝑌 ′ ·𝑊 ′ = 0. (5) ⇐⇒ 𝑌 ′ = 0, which also guarantees (4) and (6). We will use 1-3 to derive a satisfactory 𝑋 ′ and 𝑊 ′ . Y ′ = 0 olduğunu belirledik. B.3.4 Deriving 𝑋 ′ and 𝑊 ′ . X ′ := (x1, x2) ve W ′ := (w1, w2). Genellik kaybı olmadan x1 <= x2 olsun. Because we have three equations in four unknowns, we cannot directly solve for 𝑥1, 𝑥2,𝑤1,𝑤2. To produce a fourth equation, we choose the constraint that 𝑥1/𝑥2 = 𝑚𝑖𝑛(𝑋)/𝑚𝑎𝑥 (𝑋). This choice will simplify the math, and will ensure that 𝑚𝑖𝑛(𝑋) <= 𝑥1 <= 𝑥2 <= 𝑚𝑎𝑥 (𝑋). With this fourth equation, we solve the simultaneous equations to produce: Dikkat edin, çünkü centroid sıfır, min(X) < 0 < max (X), bu yüzden bu ifadeler hepsi tanımlanmıştır. (Dinleyiciler asla 0 değildir ve çerçeve köklerinin altındaki değerler asla negatif değildir.) P ′ = (x1, 0,w1), (x2, 0,w2) gereksinimlerimizi karşılamaktadır. <= x1 <= x2 <= max (X). P ′'yi dördüncü hata ifadesini karşılamak istiyorduk ve aynı zamanda onun x değerlerini P'nin x değerleri ile sınırlandırdık, bunu şimdi kanıtlıyoruz. Let μ := E(X,W ), W ile ağırlanan X'in beklenen değeri, Centroid (P)'nin x değerine eşittir. Bhatia-Davis eşitsizliğiyle [25], stddev(X,W ) 2 <= (μ −min(X)) (max (X) − μ). (Bu eşitsizlik, bir dağılımın standart sapması tüm x'lerin aşırı olduğu zaman – yani min(X) veya max(X) eşit olduğu gözlemine eşittir). B.3.5 Verify that 𝑚𝑖𝑛(𝑋) P için μ sıfır olduğundan, stddev(X,W) 2 <= −min(X)max (X) B.4 Kurucu Corollary B.6. Given a set of points 𝑃 and a set of x-knots 𝐾, we can construct a set of points 𝑃 ′ with |𝑃 ′ | <= 2(|𝐾| − 1) such that, for any PWLCurve 𝐶 whose x-knots are elements of 𝐾, 𝑆𝐸(𝐶, 𝑃) = 𝑆𝐸(𝐶, 𝑃 ′ ) + 𝑐, where 𝑐 is a constant determined exclusively by 𝑃 and 𝐾 that’s the same for every 𝐶. P ′'daki noktaların P'den seçilme yerine inşa edildiğini unutmayın P ′'nin inşaatı pwlfit [22]'de uygulanır. . linear_condense.condense_around_knots Parça-lineer eğriler, x düğmelerinin aralığını aşan giriş değerleri için sabittir, bu nedenle C x <= min(K) = K[0] ve x >= max (K) = K[k − 1 için sabittir. B.4.1 Preprocess 𝑃 by clamping. Therefore we can clamp the x-values of 𝑃 to [𝐾[0], 𝐾[𝑘 − 1]] without altering 𝑆𝐸(𝐶, 𝑃). We do so as a preprocess. To construct 𝑃 ′ from 𝑃, we first partition 𝑃 by 𝐾 into 𝑘 + 1 disjoint pieces labeled 𝑃0, 𝑃1, ..., 𝑃𝑘 . B.4.2 Partition 𝑃 by 𝐾. P, P0 ve Pk boş olduğu için, Ðk−1 i=1 Pi = P. Bir PWLCurve sürekli kontrol noktaları arasında lineerdir, bu nedenle C her Pi üzerinde lineerdir. B.4.3 Her bölümü iki noktaya dönüştürün. teoremden, her Pi için, minx (Pi) <= minx (P ′ i ) <= maxx (P ′ i ) <= maxx (Pi) ile iki noktalı bir set P ′ i üretebiliriz, böylece herhangi bir çizgi için L, Bu makale CC by 4.0 Deed (Attribution 4.0 International) lisansı altında mevcuttur. Bu makale CC by 4.0 Deed (Attribution 4.0 International) lisansı altında mevcuttur.