Autores:
(1) Guillaume Staerman, INRIA, CEA, Univ. París-Saclay, Francia;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francia;
(3) Gareth W. Peters, Departamento de Estadística y Probabilidad Aplicada, Universidad de California en Santa Bárbara, EE.UU.
2. Antecedentes y preliminares
2.1. Bosque de aislamiento funcional
3. Método de bosque de aislamiento de firmas
4.1. Análisis de sensibilidad de parámetros
4.2. Ventajas del (K-)SIF sobre el FIF
4.3. Punto de referencia para la detección de anomalías con datos reales
5. Discusión y conclusión, declaraciones de impacto y referencias
Apéndice
A. Información adicional sobre la firma
C. Experimentos numéricos adicionales
En esta sección, presentamos experimentos numéricos adicionales en apoyo de los algoritmos propuestos y los argumentos desarrollados en el cuerpo principal del documento. Primero, describimos el papel de la profundidad de la firma en los algoritmos y explicamos cómo este parámetro los afecta. Proporcionamos diagramas de caja para dos conjuntos de datos generados y argumentamos la importancia del parámetro de profundidad en este contexto. Luego, proporcionamos experimentos adicionales sobre la ventaja de robustez al ruido de (K)-SIF sobre FIF, relacionado con la Sección 4.2 del cuerpo principal del documento. El tercer párrafo se refiere a los datos generados para el experimento de "eventos de intercambio" en la sección 4.2 del cuerpo principal del documento. Proporcionamos una Figura para visualización y una mejor comprensión. Además, comentamos cómo construimos los datos. Luego, la cuarta subsección demuestra el tiempo computacional de los algoritmos propuestos con una comparación directa con FIF. Luego, se presenta un experimento adicional que presenta evidencia adicional del poder de discriminación con respecto a la tarea AD de (K)-SIF sobre FIF. Finalmente, la última subsección muestra una Tabla que describe información sobre el tamaño de los conjuntos de datos relacionados con el punto de referencia de la Sección 4.3.
En este experimento, investigamos el impacto de este parámetro en K-SIF con dos clases diferentes de procesos estocásticos. El movimiento browniano tridimensional (con µ = 0 y σ = 0,1), caracterizado por sus dos primeros momentos, y el proceso de difusión de salto de Merton unidimensional, un proceso de cola pesada ampliamente utilizado para modelar el mercado de valores.
Algoritmos
De esta manera, comparamos la primera clase de modelos estocásticos con la segunda, que, en cambio, no puede caracterizarse por los dos primeros momentos y observamos el desempeño de (K)-SIF a este respecto.
Calculamos K-SIF con tres diccionarios con niveles de truncamiento que varían en {2, 3, 4} para ambos conjuntos de datos simulados. Establecimos el número de ventanas divididas en 10, de acuerdo con la sección anterior, y el número de árboles en 1000. Después de eso, calculamos la correlación de Kendall del rango devuelto por estos modelos para las tres configuraciones por pares: nivel 2 vs nivel 3, nivel 2 vs nivel 4, y nivel 3 vs nivel 4.
Repetimos este experimento 100 veces y presentamos los diagramas de caja de correlación en la Figura 5 para el movimiento browniano y en la Figura 6 para el proceso de difusión por salto de Merton. Nótese que los diagramas izquierdo y derecho se refieren a los diferentes parámetros de ventana dividida seleccionados para K-SIF, correspondientes a ω = 3 para los paneles izquierdos, mientras que, para los derechos, elegimos ω = 5. Estos diagramas de caja muestran la correlación de tau de Kendall entre la puntuación devuelta por uno de los algoritmos utilizados con una profundidad específica y el mismo algoritmo con una profundidad diferente. Los resultados de K-SIF con los tres diccionarios se representan en azul, naranja y verde para las ondículas browniana, coseno y gaussiana verde, respectivamente. Los diagramas de caja de SIF están en violeta. El eje y se refiere a los valores de correlación de Kendall y el eje x a los ajustes de los valores de profundidad con respecto a los cuales se ha correlacionado.
Una correlación alta indica un rango equivalente devuelto por el algoritmo con diferentes parámetros de profundidad. Por lo tanto, si la correlación es alta, esto sugiere que este parámetro no afecta los resultados del algoritmo considerado, y se debe seleccionar una profundidad menor para una mejor eficiencia computacional. Se muestran altas correlaciones tanto para SIF (diagramas de caja morados) como para K-SIF para los dos diccionarios, es decir, browniano y coseno (diagramas de caja azules y naranjas). Por lo tanto, se recomienda elegir el nivel de truncamiento mínimo para mejorar la eficiencia computacional. Para los mismos algoritmos, se identifican correlaciones ligeramente más bajas en el caso de los procesos de Merton, pero aún alrededor de los niveles de 0,8, lo que respalda una afirmación equivalente. En el caso de K-SIF con el diccionario gaussiano (diagramas de caja verdes), se obtiene una variación mucho mayor con respecto a los resultados de correlación en los tres escenarios probados. Además, en el caso de los procesos de difusión de salto de Merton, los resultados muestran una correlación más baja, en consonancia con los otros resultados. Por lo tanto, en el caso de K-SIF con dicho diccionario, la profundidad debe elegirse con cuidado ya que diferentes parámetros podrían conducir a una mejor detección de los momentos del proceso subyacente.
Esta parte proporciona experimentos adicionales sobre la ventaja de robustez al ruido de (K)-SIF sobre FIF, relacionados con la Sección 4.2 del cuerpo principal del documento. La configuración para la simulación de datos es la siguiente. Definimos un conjunto de datos sintéticos de 100 funciones suaves dadas por
donde ε(t) ∼ N (0, 0,5). Seleccionamos aleatoriamente nuevamente el 10% y creamos curvas ligeramente ruidosas agregando un pequeño ruido en otro subintervalo en comparación con el primero, es decir,
donde ε(t) ∼ N (0, 0,1).
La Figura 7 proporciona una visualización resumida del conjunto de datos generado en el primer panel. Las 10 curvas anómalas se representan en rojo, mientras que las 10 curvas consideradas como datos normales ligeramente ruidosos se representan en azul. El resto de las curvas, consideradas como datos normales, se muestran en gris. La idea es comprender cómo la elección del diccionario influye en K-SIF y FIF en la detección de datos normales ligeramente ruidosos frente a ruido anormal. Los resultados para K-SIF y FIF se proporcionan en el segundo, tercer y cuarto panel de la Figura 7, respectivamente.
Calculamos K-SIF con un diccionario browniano, k = 2 y ω = 10 y FIF para α = 0 y α = 1 también con un diccionario browniano. Los colores de los paneles representan la puntuación de anomalía asignada a cada curva para ese algoritmo específico. En el segundo (K-SIF) y último (FIF con α = 0) paneles, la puntuación de anomalía aumenta de amarillo a azul oscuro, es decir, una curva oscura es anormal y el amarillo es normal, mientras que, en el tercer gráfico (FIF con α = 1) es lo opuesto, es decir, una curva oscura es normal y el amarillo es anormal.
Es posible observar cómo K-SIF puede identificar con éxito los datos ruidosos y anormales como tales. De hecho, mientras que los datos anormales están coloreados en azul oscuro, los ruidosos muestran una puntuación de color amarillo. En cambio, en FIF con α = 1 (tercer panel), tanto las curvas anormales como las ligeramente ruidosas se identifican como datos normales (dada la escala invertida y con colores azul oscuro). Cuando se trata de FIF con α = 0 (último y cuarto panel), tanto los datos anormales como los ruidosos se puntúan como curvas anormales. Por lo tanto, FIF con ambas configuraciones del parámetro α, no puede proporcionar una puntuación diferente a los datos ruidosos y ligeramente ruidosos. K-SIF, en cambio, realiza con éxito dicha tarea.
Esta parte proporciona una visualización del conjunto de datos utilizado en el experimento de "intercambio de eventos" de la sección 4.2 del artículo principal. La figura 8 muestra los datos simulados. Observe que definimos un conjunto de datos sintético de 100 funciones suaves dadas por
con t ∈ [0, 1] y q equiespaciados en [1, 1.4]. Luego, simulamos la ocurrencia de eventos agregando ruido gaussiano en diferentes porciones de las funciones. Seleccionamos aleatoriamente el 90% de ellas y agregamos valores gaussianos en un subintervalo, es decir,
donde ε(t) ∼ N (0, 0,8). Consideramos el 10% restante como anormal al agregar los mismos 'eventos' en otro subintervalo en comparación con el primero, es decir,
donde ε(t) ∼ N (0, 0,8). Por lo tanto, hemos construido dos eventos idénticos que ocurren en diferentes partes de las funciones, lo que conduce a anomalías aislantes.
En esta parte, construimos un experimento de juguete adicional para demostrar el poder de discriminación de (K-)SIF sobre FIF. Simulamos 100 trayectorias de movimiento browniano planar con el 90 % de datos normales con deriva µ = [0, 0] y desviación estándar σ = [0,1, 0,1], y el 10 % de datos anormales con deriva µ = [0, 0] y desviación estándar σ = [0,4, 0,4].
La Figura 10 presenta una simulación de este conjunto de datos. Nótese que las rutas violetas representan datos normales, mientras que en naranja se representan los anormales. En este conjunto de datos, calculamos FIF (con α = 1 y diccionario browniano), K-SIF (con
k = 2, ω = 10 y diccionario browniano) y SIF (con k = 2 y ω = 10). Para mostrar las puntuaciones devueltas por el algoritmo, proporcionamos la Figura 11. Nótese que, los gráficos muestran las puntuaciones para estas 100 rutas, después de haberlas ordenado. Por lo tanto, el eje x proporciona el índice de las puntuaciones ordenadas, mientras que el eje y representa los valores de las puntuaciones. En cuanto a la simulación, graficamos en violeta las puntuaciones de los datos normales y en naranja las puntuaciones de los datos anormales. Los tres paneles se refieren a FIF, K-SIF y SIF, respectivamente.
Es posible observar que las puntuaciones de K-SIF y SIF separan bien los datos anormales de los normales, con un salto en las puntuaciones que es bastante pronunciado, es decir, las puntuaciones de los datos normales están relativamente distantes de las puntuaciones de los datos anormales. Si uno se centra en cambio en FIF, entonces la discriminación de tales anomalías parece ser más difícil; el primer panel muestra, de hecho, un continuo en términos de la puntuación devuelta por el algoritmo AD, que no separa los datos normales de los anormales.
En resumen, los algoritmos propuestos que aprovechan el núcleo de firma (K-SIF) y la coordenada de firma (SIF) muestran resultados más confiables en este entorno experimental, lo que sugiere su eficacia para discernir anomalías dentro del conjunto de datos simulados. Detectar el orden en que ocurren los eventos es una característica mucho más informativa que incorporar un aspecto funcional en el algoritmo de detección de anomalías. Este aspecto debe investigarse y explorarse más a fondo, en particular en las áreas de aplicación donde se tienen en cuenta datos secuenciales, como las series temporales.
En este contexto, las herramientas estadísticas conocidas como profundidades de datos sirven como puntuaciones de similitud intrínseca. Las profundidades de datos ofrecen una interpretación geométrica sencilla, ordenando los puntos desde el centro hacia afuera con respecto a una distribución de probabilidad (Tukey, 1975; Zuo y Serfling, 2000). Geométricamente, las profundidades de datos miden la profundidad de una muestra dentro de una distribución dada. A pesar de haber atraído la atención de la comunidad estadística, las profundidades de datos han sido en gran medida pasadas por alto por la comunidad de aprendizaje automático. Se han propuesto numerosas definiciones, como alternativas a la primera propuesta, la profundidad de semiespacio introducida en (Tukey, 1975). Entre muchas otras, se incluyen: la profundidad simplicial (Liu, 1988), la profundidad de proyección (Liu y Singh, 1993), la profundidad zonoide (Koshevoy y Mosler, 1997), la profundidad de regresión (Rousseeuw y Hubert, 1999), la profundidad espacial (Vardi y Zhang, 2000) o la profundidad AI-IRW (Clemen ´ c¸on et al., 2023) que difieren en sus propiedades y aplicaciones. La profundidad de datos encuentra muchas aplicaciones, como la definición de métricas robustas entre distribuciones de probabilidad (Staerman et al., 2021b) que compiten con métricas robustas basadas en transporte óptimo (Staerman et al., 2021a), la búsqueda de ataques adversarios en visión por computadora (Picot et al., 2022; Dadalto et al., 2023) o la detección de alucinaciones en transformadores NLP (Colombo et al., 2023; Darrin et al., 2023; Colombo et al., 2022) y LLM (Himmi et al., 2024).
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.