Autores:
(1) Sha-Bo Lin, Centro para la Toma de Decisiones Inteligentes y el Aprendizaje Automático, Escuela de Administración, Universidad Xi'an Jiaotong;
(2) Xingping Sun, Departamento de Matemáticas, Universidad Estatal de Missouri;
(3) Di Wang, §Centro para la toma de decisiones inteligente y el aprendizaje automático, Escuela de Administración, Universidad Xi'an Jiaotong.
Resumen e introducción
Relación de incertidumbre de la interpolación del kernel en esferas
Interpolación de kernel distribuida
Diferencias de operadores mediante reglas de cuadratura
Pruebas
Verificaciones numéricas
Referencias
Para la interpolación del núcleo de la función de base radial (RBF) de datos dispersos, Schaback [30] demostró en 1995 que el error de aproximación alcanzable y el número de condición de la matriz de interpolación subyacente no pueden reducirse simultáneamente. Se refirió a este hallazgo como una “relación de incertidumbre”, cuya consecuencia indeseable es que la interpolación del núcleo RBF es susceptible a datos ruidosos. En este artículo, proponemos y estudiamos un método de interpolación distribuida para gestionar y cuantificar la incertidumbre provocada por la interpolación de datos esféricos ruidosos de magnitud no despreciable. También presentamos resultados de simulación numérica que muestran que nuestro método es práctico y robusto en términos de manejo de datos ruidosos de entornos informáticos desafiantes.
Palabras clave. Interpolación de kernel, mitigación de incertidumbre distribuida, datos esféricos dispersos
El corolario 2.2 muestra que la interpolación del kernel funciona mal cuando se enfrenta a datos ruidosos de magnitud no despreciable. Para superar este importante inconveniente, proponemos y estudiamos en esta sección un método de interpolación de núcleo distribuido (DKI), que está motivado por el "aprendizaje distribuido" en la literatura [37, 19]. En sentido figurado, se trata de una estrategia de divide y vencerás para la cuantificación de la incertidumbre. Para elaborar, describimos el método en tres pasos.
En esta sección, primero exponemos brevemente un enfoque de operador integral iniciado en [8] y luego derivamos límites superiores ajustados para las diferencias de los operadores de nuestro interés, obteniendo un cierto tipo de desigualdades de muestreo de Sobolev [12] como subproducto. Los aspectos más destacados de la sección incluyen la Proposición 4.5) y el Lema 4.8.
En esta sección se realizan cuatro simulaciones para verificar el excelente desempeño de DKI. El primero muestra que DKI logra sortear la incertidumbre de la interpolación del kernel. El segundo muestra el papel de m en DKI. El tercero se centra en el papel de la estrategia divisional en DKI. El último compara DKI con varios esquemas populares de ajuste de datos esféricos, incluida la hiperinterpolación filtrada distribuida (DFH) [21], bocetos con diseños s ∗ [20] y regresión distribuida de crestas del núcleo (DKRR) [8].
Simulación 2: En esta simulación, mostramos el papel del parámetro m en DKI. Generamos 10014 muestras de capacitación (con 141 diseños como entradas). El número de divisiones, m, oscila entre {5, 10, · · · , 200}. La Figura 6.2 muestra la relación entre RMSE de DKI y el número de máquinas locales bajo diferentes niveles de ruido gaussiano, siempre que se proporcione el número total de muestras de entrenamiento. De la Figura 6.2, podemos concluir las siguientes afirmaciones: 1) Para muestras de entrenamiento con niveles más altos de ruido, el RMSE de prueba generalmente disminuye al principio y luego aumenta lentamente a medida que aumenta el número de máquinas locales. Los valores moderados de m son más conducentes a una buena propiedad de aproximación para DKI. La razón es que m demasiado pequeña no soluciona con éxito el problema de la incertidumbre en la interpolación del kernel; m demasiado grande aumenta el error de ajuste, lo que da como resultado un rendimiento de generalización ligeramente peor. 2) El número óptimo m con el RMSE más bajo crece al aumentar el ruido gaussiano. Esto verifica la ecuación (3.3) del Teorema 3.2, en la que el error de aproximación tiene que ver principalmente con el error de muestra para ruido grande (es decir, M grande) y se puede reducir usando un m grande.
[1] R. Bhatia, Análisis matricial, vol. 169, Springer Science & Business Media, 2013.
[2] JS Brauchart y K. Hesse, Integración numérica sobre esferas de dimensión arbitraria, Aproximación constructiva, 25 (2007), págs.
[3] G. Brown y F. Dai, Aproximación de funciones suaves en espacios homogéneos compactos de dos puntos, Journal of Functional Analysis, 220 (2005), págs.
[4] A. Chernih, IH Sloan y RS Womersley, Las funciones de Wendland con suavidad creciente convergen a una gaussiana, Advances in Computational Mathematics, 40 (2014), págs.
[5] F. Dai, Desigualdades polinomiales multivariadas con respecto a la duplicación de pesos y pesos a∞, Journal of Functional Analysis, 235 (2006), págs.
[6] F. Dai, Sobre la hiperinterpolación generalizada en la esfera, Actas de la Sociedad Matemática Estadounidense, 134 (2006), págs.
[7] HW Engl, M. Hanke y A. Neubauer, Regularización de problemas inversos, vol. 375, Springer Science & Business Media, 1996.
[8] H. Feng, S.-B. Lin y D.-X. Zhou, Aproximación de función de base radial con datos almacenados distributivamente en esferas, arXiv:2112.02499, (2021).
[9] T. Hangelbroek, FJ Narcowich, X. Sun y JD Ward, Aproximación de Kernel en variedades ii: La norma l∞ del proyector l2, SIAM Journal on Mathematical Analysis, 43 (2011), págs.
[10] T. Hangelbroek, FJ Narcowich y JD Ward, Aproximación de Kernel en variedades i: delimitación de la constante de Lebesgue, SIAM Journal on Mathematical Analysis, 42 (2010), págs.
[11] K. Hesse, IH Sloan y RS Womersley, Aproximación de la función de base radial de datos dispersos ruidosos en la esfera, Numerische Mathematik, 137 (2017), págs.
[12] K. Hesse, IH Sloan y RS Womersley, Aproximación de mínimos cuadrados penalizada basada en rbf local en la esfera con datos dispersos ruidosos, Journal of Computational and Applied Mathematics, 382 (2021), p. 113061.
[13] S. Hubbert, QT Le Gia y TM Morton ˆ, Funciones, teoría y aplicaciones de base radial esférica, Springer, 2015.
[14] MA King, RJ Bingham, P. Moore, PL Whitehouse, MJ Bentley y GA Milne, Estimaciones de gravimetría satelital inferior de la contribución del nivel del mar antártico, Nature, 491 (2012), págs.
[15] QT Le Gia, FJ Narcowich, JD Ward y H. Wendland, Aproximación de mínimos cuadrados continuos y discretos mediante funciones de base radial en esferas, Journal of Approximation Theory, 143 (2006), págs.
[16] P. Leopardi, Una partición de la esfera unitaria en regiones de igual área y diámetro pequeño, Electronic Transactions on Numerical Analysis, 25 (2006), págs.
[17] J. Levesley, Z. Luo y X. Sun, Estimaciones normativas de matrices de interpolación y sus inversas asociadas con funciones definidas estrictamente positivas, Actas de la Sociedad Matemática Estadounidense, (1999), págs.
[18] S.-B. Lin, X. Chang y X. Sun, Interpolación del kernel de datos dispersos de alta dimensión, preimpresión de arXiv arXiv:2009.01514, (2020).
[19] S.-B. Lin, X. Guo y D.-X. Zhou, Aprendizaje distribuido con mínimos cuadrados regularizados, The Journal of Machine Learning Research, 18 (2017), págs. 3202–3232.
[20] S.-B. Lin, D. Wang y D.-X. Zhou, Dibujando con diseños esféricos sobre esferas, Revista SIAM de Computación Científica, en prensa (2023).
[21] S.-B. Lin, YG Wang y D.-X. Zhou, Hiperinterpolación filtrada distribuida para datos ruidosos en la esfera, SIAM Journal on Numerical Analysis, 59 (2021), págs.
[22] JD McEwen e Y. Wiaux, Un nuevo teorema de muestreo sobre la esfera, IEEE Transactions on Signal Processing, 59 (2011), págs.
[23] H. Mhaskar, F. Narcowich y J. Ward, Desigualdades esféricas de marcinkiewicz-zygmund y cuadratura positiva, Matemáticas de la Computación, 70 (2001), págs.
[24] HN Mhaskar, Fórmulas de cuadratura ponderada y aproximación mediante redes de funciones zonales en la esfera, Journal of Complexity, 22 (2006), págs.
[25] C. Muller ¨, Armónicos esféricos, vol. 17, Springer, 1966.
[26] FJ Narcowich, N. Sivakumar y JD Ward, Resultados de estabilidad para la interpolación de datos dispersos en esferas euclidianas, Advances in Computational Mathematics, 8 (1998), págs.
[27] FJ Narcowich, X. Sun, JD Ward y H. Wendland, Estimaciones del error de sobolev directo e inverso para la interpolación de datos dispersos mediante funciones de base esférica, Foundations of Computational Mathematics, 7 (2007), págs.
[28] FJ Narcowich y JD Ward, Interpolación de datos dispersos en esferas: estimaciones de error y funciones básicas admitidas localmente, SIAM Journal on Mathematical Analysis, 33 (2002), págs.
[29] A. Rudi, R. Camoriano y L. Rosasco, Menos es más: regularización computacional de Nystr¨om, en NIPS, 2015, págs.
[30] R. Schaback, Estimaciones de error y números de condición para la interpolación de funciones de base radial, Advances in Computational Mathematics, 3 (1995), págs.
[31] S. Smale y D.-X. Zhou, Shannon muestreo y reconstrucción de funciones a partir de valores puntuales, Boletín de la Sociedad Matemática Estadounidense, 41 (2004), págs.
[32] S. Smale y D.-X. Zhou, Shannon sampling ii: Conexiones con la teoría del aprendizaje, Análisis armónico computacional y aplicado, 19 (2005), págs.
[33] Y.-T. Tsai y Z.-C. Shih, Transferencia de radiancia precalculada de todas las frecuencias utilizando funciones de base radial esférica y aproximación de tensor agrupado, ACM Transactions on Graphics (TOG), 25 (2006), págs.
[34] H. Wendland, Aproximación de datos dispersos, vol. 17, prensa de la Universidad de Cambridge, 2004.
[35] MA Wieczorek y RJ Phillips, Anomalías potenciales en una esfera: aplicaciones al espesor de la corteza lunar, Journal of Geophysical Research: Planets, 103 (1998), págs.
[36] RS Womersley, Diseños esféricos eficientes con buenas propiedades geométricas, en Matemáticas computacionales contemporáneas: una celebración del 80 cumpleaños de Ian Sloan, Springer, 2018, págs.
[37] Y. Zhang, J. Duchi y M. Wainwright, Divide y vencerás la regresión de la cresta del núcleo: un algoritmo distribuido con tasas óptimas minimax, The Journal of Machine Learning Research, 16 (2015), págs.
SM1. Apéndice A: Estrategia de seleccionar y juzgar para la división de datos. En este Apéndice, presentamos la implementación detallada de la estrategia de seleccionar y juzgar (SAJ). Nuestro objetivo es derivar una serie de subconjuntos de cardinalidad similar con un radio de separación no menor que una tolerancia dada c0. Hay dos etapas para SAJ.
Este documento está disponible en arxiv bajo licencia CC0 1.0 DEED.