Autores:
(1) Sha-Bo Lin, Centro para Tomada de Decisão Inteligente e Aprendizado de Máquina, Escola de Administração, Universidade Xi'an Jiaotong;
(2) Xingping Sun, Departamento de Matemática, Missouri State University;
(3) Di Wang, §Centro para Tomada de Decisão Inteligente e Aprendizado de Máquina, Escola de Administração, Universidade Xi'an Jiaotong.
Resumo e introdução
Relação de incerteza da interpolação do kernel em esferas
Interpolação de Kernel Distribuída
Diferenças de operadores por meio de regras de quadratura
Provas
Verificações Numéricas
Referências
Para interpolação de kernel de função de base radial (RBF) de dados dispersos, Schaback [30] em 1995 provou que o erro de aproximação atingível e o número de condição da matriz de interpolação subjacente não podem ser reduzidos simultaneamente. Ele se referiu a essa descoberta como uma “relação de incerteza”, cuja consequência indesejável é que a interpolação do kernel RBF é suscetível a dados ruidosos. Neste artigo, propomos e estudamos um método de interpolação distribuída para gerenciar e quantificar a incerteza provocada pela interpolação de dados esféricos ruidosos de magnitude não desprezível. Também apresentamos resultados de simulação numérica mostrando que nosso método é prático e robusto em termos de tratamento de dados ruidosos de ambientes computacionais desafiadores.
Palavras-chave. Interpolação de kernel, mitigação de incerteza distribuída, dados esféricos dispersos
O Corolário 2.2 mostra que a interpolação do kernel tem um desempenho ruim ao confrontar dados ruidosos de magnitude não desprezível. Para superar esta grande desvantagem, propomos e estudamos nesta seção um método de interpolação de kernel distribuído (DKI), que é motivado pelo “aprendizado distribuído” na literatura [37, 19]. Falando figurativamente, esta é uma estratégia de dividir para conquistar para quantificação da incerteza. Para elaborar, descrevemos o método em três etapas.
Nesta seção, primeiro expomos brevemente uma abordagem de operador integral iniciada em [8] e então derivamos limites superiores rígidos para diferenças de operadores de nosso interesse, obtendo um certo tipo de desigualdades de amostragem de Sobolev [12] como subproduto. Os destaques da seção incluem a Proposição 4.5) e o Lema 4.8.
Quatro simulações são realizadas nesta seção para verificar o excelente desempenho do DKI. A primeira mostra que o DKI consegue contornar a incerteza da interpolação do kernel. O segundo exibe o papel de m no DKI. O terceiro centra-se no papel da estratégia de divisão na DKI. O último compara DKI com vários esquemas populares de ajuste de dados esféricos, incluindo a hiperinterpolação filtrada distribuída (DFH) [21], esboçando com s ∗ -designs [20] e regressão distribuída de kernel ridge (DKRR) [8].
Simulação 2: Nesta simulação mostramos o papel do parâmetro m no DKI. Geramos 10.014 amostras de treinamento (com 141 designs como entradas). O número de divisões, m, varia de {5, 10, · · · , 200}. A Figura 6.2 mostra a relação entre o RMSE do DKI e o número de máquinas locais sob diferentes níveis de ruído gaussiano, desde que seja dado o número total de amostras de treinamento. Da Figura 6.2, podemos concluir as seguintes afirmações: 1) Para amostras de treinamento com níveis mais elevados de ruído, o RMSE de teste geralmente diminui no início e depois aumenta lentamente à medida que o número de máquinas locais aumenta. Valores moderados de m são mais condutivos a uma boa propriedade de aproximação para DKI. A razão é que m muito pequeno não resolve com sucesso o problema da incerteza na interpolação do kernel; m muito grande aumenta o erro de ajuste, resultando em um desempenho de generalização um pouco pior. 2) O número ideal m com o RMSE mais baixo cresce com o aumento do ruído gaussiano. Isto verifica a equação (3.3) do Teorema 3.2, na qual o erro de aproximação está principalmente preocupado com o erro amostral para ruído grande (ou seja, M grande) e pode ser reduzido usando um m grande.
[1] R. Bhatia, Análise de Matriz, vol. 169, Springer Science & Business Media, 2013.
[2] JS Brauchart e K. Hesse, Integração numérica sobre esferas de dimensão arbitrária, Aproximação Construtiva, 25 (2007), pp.
[3] G. Brown e F. Dai, Aproximação de funções suaves em espaços homogêneos compactos de dois pontos, Journal of Functional Analysis, 220 (2005), pp.
[4] A. Chernih, IH Sloan e RS Womersley, funções de Wendland com suavidade crescente convergem para uma gaussiana, Advances in Computational Mathematics, 40 (2014), pp.
[5] F. Dai, Desigualdades polinomiais multivariadas com relação à duplicação de pesos e pesos a∞, Journal of Functional Analysis, 235 (2006), pp.
[6] F. Dai, Sobre hiperinterpolação generalizada na esfera, Proceedings of the American Mathematical Society, 134 (2006), pp.
[7] HW Engl, M. Hanke e A. Neubauer, Regularização de Problemas Inversos, vol. 375, Springer Science & Business Media, 1996.
[8] H. Feng, S.-B. Lin, e D.-X. Zhou, Aproximação de função de base radial com dados armazenados distributivamente em esferas, arXiv:2112.02499, (2021).
[9] T. Hangelbroek, FJ Narcowich, X. Sun e JD Ward, Aproximação de Kernel em variedades ii: A norma l∞ do projetor l2, SIAM Journal on Mathematical Analysis, 43 (2011), pp.
[10] T. Hangelbroek, FJ Narcowich e JD Ward, Kernel approximation on manifolds i: limiting the lebesgue constante, SIAM Journal on Mathematical Analysis, 42 (2010), pp.
[11] K. Hesse, IH Sloan e RS Womersley, Aproximação da função de base radial de dados dispersos com ruído na esfera, Numerische Mathematik, 137 (2017), pp.
[12] K. Hesse, IH Sloan e RS Womersley, Aproximação de mínimos quadrados penalizados com base em rbf local na esfera com dados dispersos ruidosos, Journal of Computational and Applied Mathematics, 382 (2021), p. 113061.
[13] S. Hubbert, QT Le Gia e TM Morton ˆ, Funções de base radial esférica, teoria e aplicações, Springer, 2015.
[14] MA King, RJ Bingham, P. Moore, PL Whitehouse, MJ Bentley e GA Milne, Estimativas de gravimetria por satélite inferior da contribuição do nível do mar antártico, Nature, 491 (2012), pp.
[15] QT Le Gia, FJ Narcowich, JD Ward e H. Wendland, Aproximação contínua e discreta de mínimos quadrados por funções de base radial em esferas, Journal of approximation Theory, 143 (2006), pp.
[16] P. Leopardi, Uma partição da esfera unitária em regiões de área igual e pequeno diâmetro, Electronic Transactions on Numerical Analysis, 25 (2006), pp.
[17] J. Levesley, Z. Luo e X. Sun, estimativas normativas de matrizes de interpolação e suas inversas associadas a funções definidas estritamente positivas, Proceedings of the American Mathematical Society, (1999), pp.
[18] S.-B. Lin, X. Chang e X. Sun, Interpolação de kernel de dados dispersos de alta dimensão, pré-impressão arXiv arXiv:2009.01514, (2020).
[19] S.-B. Lin, X. Guo e D.-X. Zhou, Aprendizagem distribuída com mínimos quadrados regularizados, The Journal of Machine Learning Research, 18 (2017), pp.
[20] S.-B. Lin, D. Wang e D.-X. Zhou, Sketching with spherical designs onspheres, SIAM Journal on Scientific Computation, no prelo (2023).
[21] S.-B. Lin, YG Wang e D.-X. Zhou, Hiperinterpolação filtrada distribuída para dados ruidosos na esfera, SIAM Journal on Numerical Analysis, 59 (2021), pp.
[22] JD McEwen e Y. Wiaux, Um novo teorema de amostragem na esfera, IEEE Transactions on Signal Processing, 59 (2011), pp.
[23] H. Mhaskar, F. Narcowich e J. Ward, Desigualdades esféricas marcinkiewicz-zygmund e quadratura positiva, Mathematics of Computation, 70 (2001), pp.
[24] HN Mhaskar, Fórmulas de quadratura ponderada e aproximação por redes de funções zonais na esfera, Journal of Complexity, 22 (2006), pp.
[25] C. Muller¨, Harmônicos Esféricos, vol. 17, Springer, 1966.
[26] FJ Narcowich, N. Sivakumar e JD Ward, Resultados de estabilidade para interpolação de dados dispersos em esferas euclidianas, Advances in Computational Mathematics, 8 (1998), pp.
[27] FJ Narcowich, X. Sun, JD Ward e H. Wendland, estimativas de erro sobolev diretas e inversas para interpolação de dados dispersos via funções de base esférica, Foundations of Computational Mathematics, 7 (2007), pp.
[28] FJ Narcowich e JD Ward, Interpolação de dados dispersos em esferas: estimativas de erro e funções de base com suporte local, SIAM Journal on Mathematical Analysis, 33 (2002), pp.
[29] A. Rudi, R. Camoriano e L. Rosasco, Menos é mais: regularização computacional Nystr¨om., em NIPS, 2015, pp.
[30] R. Schaback, Estimativas de erro e números de condição para interpolação de função de base radial, Advances in Computational Mathematics, 3 (1995), pp.
[31] S. Smale e D.-X. Zhou, amostragem de Shannon e reconstrução de função a partir de valores pontuais, Bulletin of the American Mathematical Society, 41 (2004), pp.
[32] S. Smale e D.-X. Zhou, amostragem de Shannon ii: Conexões com a teoria da aprendizagem, Análise Harmônica Aplicada e Computacional, 19 (2005), pp.
[33] Y.-T. Tsai e Z.-C. Shih, Transferência de radiância pré-computada em todas as frequências usando funções de base radial esférica e aproximação de tensor agrupado, ACM Transactions on Graphics (TOG), 25 (2006), pp.
[34] H. Wendland, Aproximação de dados dispersos, vol. 17, Cambridge University Press, 2004.
[35] MA Wieczorek e RJ Phillips, Anomalias potenciais em uma esfera: aplicações à espessura da crosta lunar, Journal of Geophysical Research: Planets, 103 (1998), pp.
[36] RS Womersley, Projetos esféricos eficientes com boas propriedades geométricas, em Matemática computacional contemporânea - Uma celebração do 80º aniversário de Ian Sloan, Springer, 2018, pp.
[37] Y. Zhang, J. Duchi e M. Wainwright, Dividir e conquistar regressão do cume do kernel: um algoritmo distribuído com taxas ideais minimax, The Journal of Machine Learning Research, 16 (2015), pp.
SM1. Apêndice A: Estratégia de seleção e julgamento para divisão de dados. Neste Apêndice, apresentamos a implementação detalhada da estratégia de selecionar e julgar (SAJ). Nosso objetivo é derivar uma série de subconjuntos de cardinalidade semelhante com raio de separação não menor que uma determinada tolerância c0. Existem duas etapas para SAJ.
Este artigo está disponível no arxiv sob licença CC0 1.0 DEED.