paint-brush
Experimentos numéricos adicionales sobre K-SIF y SIF: profundidad, ruido y poder de discriminaciónpor@computational
Nueva Historia

Experimentos numéricos adicionales sobre K-SIF y SIF: profundidad, ruido y poder de discriminación

Demasiado Largo; Para Leer

Explore experimentos adicionales sobre K-SIF y SIF, incluido el papel de la profundidad de la firma, la robustez del ruido y el rendimiento para distinguir anomalías. Los experimentos cubren diferentes procesos estocásticos, simulaciones de conjuntos de datos y comparaciones con FIF, mostrando las fortalezas de los algoritmos y los aspectos computacionales.
featured image - Experimentos numéricos adicionales sobre K-SIF y SIF: profundidad, ruido y poder de discriminación
Computational Technology for All HackerNoon profile picture
0-item

Autores:

(1) Guillaume Staerman, INRIA, CEA, Univ. París-Saclay, Francia;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francia;

(3) Gareth W. Peters, Departamento de Estadística y Probabilidad Aplicada, Universidad de California en Santa Bárbara, EE.UU.

Tabla de enlaces

Resumen y 1. Introducción

2. Antecedentes y preliminares

2.1. Bosque de aislamiento funcional

2.2 El método de la firma

3. Método de bosque de aislamiento de firmas

4. Experimentos numéricos

4.1. Análisis de sensibilidad de parámetros

4.2. Ventajas del (K-)SIF sobre el FIF

4.3. Punto de referencia para la detección de anomalías con datos reales

5. Discusión y conclusión, declaraciones de impacto y referencias


Apéndice

A. Información adicional sobre la firma

B. Algoritmos K-SIF y SIF

C. Experimentos numéricos adicionales

C. Experimentos numéricos adicionales

En esta sección, presentamos experimentos numéricos adicionales en apoyo de los algoritmos propuestos y los argumentos desarrollados en el cuerpo principal del documento. Primero, describimos el papel de la profundidad de la firma en los algoritmos y explicamos cómo este parámetro los afecta. Proporcionamos diagramas de caja para dos conjuntos de datos generados y argumentamos la importancia del parámetro de profundidad en este contexto. Luego, proporcionamos experimentos adicionales sobre la ventaja de robustez al ruido de (K)-SIF sobre FIF, relacionado con la Sección 4.2 del cuerpo principal del documento. El tercer párrafo se refiere a los datos generados para el experimento de "eventos de intercambio" en la sección 4.2 del cuerpo principal del documento. Proporcionamos una Figura para visualización y una mejor comprensión. Además, comentamos cómo construimos los datos. Luego, la cuarta subsección demuestra el tiempo computacional de los algoritmos propuestos con una comparación directa con FIF. Luego, se presenta un experimento adicional que presenta evidencia adicional del poder de discriminación con respecto a la tarea AD de (K)-SIF sobre FIF. Finalmente, la última subsección muestra una Tabla que describe información sobre el tamaño de los conjuntos de datos relacionados con el punto de referencia de la Sección 4.3.

C.1. El papel de la profundidad de la firma


En este experimento, investigamos el impacto de este parámetro en K-SIF con dos clases diferentes de procesos estocásticos. El movimiento browniano tridimensional (con µ = 0 y σ = 0,1), caracterizado por sus dos primeros momentos, y el proceso de difusión de salto de Merton unidimensional, un proceso de cola pesada ampliamente utilizado para modelar el mercado de valores.


Algoritmos



De esta manera, comparamos la primera clase de modelos estocásticos con la segunda, que, en cambio, no puede caracterizarse por los dos primeros momentos y observamos el desempeño de (K)-SIF a este respecto.


Calculamos K-SIF con tres diccionarios con niveles de truncamiento que varían en {2, 3, 4} para ambos conjuntos de datos simulados. Establecimos el número de ventanas divididas en 10, de acuerdo con la sección anterior, y el número de árboles en 1000. Después de eso, calculamos la correlación de Kendall del rango devuelto por estos modelos para las tres configuraciones por pares: nivel 2 vs nivel 3, nivel 2 vs nivel 4, y nivel 3 vs nivel 4.


Repetimos este experimento 100 veces y presentamos los diagramas de caja de correlación en la Figura 5 para el movimiento browniano y en la Figura 6 para el proceso de difusión por salto de Merton. Nótese que los diagramas izquierdo y derecho se refieren a los diferentes parámetros de ventana dividida seleccionados para K-SIF, correspondientes a ω = 3 para los paneles izquierdos, mientras que, para los derechos, elegimos ω = 5. Estos diagramas de caja muestran la correlación de tau de Kendall entre la puntuación devuelta por uno de los algoritmos utilizados con una profundidad específica y el mismo algoritmo con una profundidad diferente. Los resultados de K-SIF con los tres diccionarios se representan en azul, naranja y verde para las ondículas browniana, coseno y gaussiana verde, respectivamente. Los diagramas de caja de SIF están en violeta. El eje y se refiere a los valores de correlación de Kendall y el eje x a los ajustes de los valores de profundidad con respecto a los cuales se ha correlacionado.


Una correlación alta indica un rango equivalente devuelto por el algoritmo con diferentes parámetros de profundidad. Por lo tanto, si la correlación es alta, esto sugiere que este parámetro no afecta los resultados del algoritmo considerado, y se debe seleccionar una profundidad menor para una mejor eficiencia computacional. Se muestran altas correlaciones tanto para SIF (diagramas de caja morados) como para K-SIF para los dos diccionarios, es decir, browniano y coseno (diagramas de caja azules y naranjas). Por lo tanto, se recomienda elegir el nivel de truncamiento mínimo para mejorar la eficiencia computacional. Para los mismos algoritmos, se identifican correlaciones ligeramente más bajas en el caso de los procesos de Merton, pero aún alrededor de los niveles de 0,8, lo que respalda una afirmación equivalente. En el caso de K-SIF con el diccionario gaussiano (diagramas de caja verdes), se obtiene una variación mucho mayor con respecto a los resultados de correlación en los tres escenarios probados. Además, en el caso de los procesos de difusión de salto de Merton, los resultados muestran una correlación más baja, en consonancia con los otros resultados. Por lo tanto, en el caso de K-SIF con dicho diccionario, la profundidad debe elegirse con cuidado ya que diferentes parámetros podrían conducir a una mejor detección de los momentos del proceso subyacente.


Figura 5: Resultados del proceso de movimiento browniano. Correlación tau de Kendall entre la puntuación devuelta por SIF (violeta) y K-SIF con diferentes valores de profundidad, ω = 3 (izquierda) y ω = 5 (derecha), para los tres diccionarios: "Brownian" (azul), "Cosine" (naranja) y "Gaussian wavelets" (verde) en trayectorias brownianas tridimensionales.


Figura 6: Resultados del proceso de difusión con salto de Merton. Correlación de la tau de Kendall entre la puntuación obtenida con SIF (violeta) y K-SIF con diferentes valores de profundidad para los tres diccionarios: "Brownian" (azul), "Cosine" (naranja) y "Gaussian wavelets" (verde) con ω = 3 (izquierda) y ω = 5 (derecha) en los procesos de difusión con salto de Merton.

C.2. Robustez al ruido

Esta parte proporciona experimentos adicionales sobre la ventaja de robustez al ruido de (K)-SIF sobre FIF, relacionados con la Sección 4.2 del cuerpo principal del documento. La configuración para la simulación de datos es la siguiente. Definimos un conjunto de datos sintéticos de 100 funciones suaves dadas por



donde ε(t) ∼ N (0, 0,5). Seleccionamos aleatoriamente nuevamente el 10% y creamos curvas ligeramente ruidosas agregando un pequeño ruido en otro subintervalo en comparación con el primero, es decir,



donde ε(t) ∼ N (0, 0,1).


La Figura 7 proporciona una visualización resumida del conjunto de datos generado en el primer panel. Las 10 curvas anómalas se representan en rojo, mientras que las 10 curvas consideradas como datos normales ligeramente ruidosos se representan en azul. El resto de las curvas, consideradas como datos normales, se muestran en gris. La idea es comprender cómo la elección del diccionario influye en K-SIF y FIF en la detección de datos normales ligeramente ruidosos frente a ruido anormal. Los resultados para K-SIF y FIF se proporcionan en el segundo, tercer y cuarto panel de la Figura 7, respectivamente.


Calculamos K-SIF con un diccionario browniano, k = 2 y ω = 10 y FIF para α = 0 y α = 1 también con un diccionario browniano. Los colores de los paneles representan la puntuación de anomalía asignada a cada curva para ese algoritmo específico. En el segundo (K-SIF) y último (FIF con α = 0) paneles, la puntuación de anomalía aumenta de amarillo a azul oscuro, es decir, una curva oscura es anormal y el amarillo es normal, mientras que, en el tercer gráfico (FIF con α = 1) es lo opuesto, es decir, una curva oscura es normal y el amarillo es anormal.


Figura 7: Robustez al ruido. El primer panel presenta los datos brutos, donde hay 120 curvas, de las cuales, en rojo tenemos las 10 curvas para datos anormales o ruidosos, en azul las 10 curvas de datos ligeramente ruidosos pero normales y en gris las curvas restantes. La configuración para la simulación de datos se proporciona al principio de esta sección. Los paneles segundo, tercero y cuarto muestran los puntajes de anomalía asignados a las curvas según el algoritmo de interés. El segundo panel se refiere a K-SIF, ejecutado con un diccionario browniano, k = 2 y ω = 10. Los paneles tercero y cuarto se refieren a FIF ejecutado con un diccionario browniano con α = 1 (tercero) y α = 0 (cuarto), respectivamente. El color del puntaje de anomalía aumenta de amarillo a azul oscuro en los gráficos segundo y cuarto, es decir, una curva oscura es anormal y amarilla es normal. En el tercer gráfico, para fines de visualización, disminuye, es decir, una curva oscura es normal y el amarillo es anormal.


Es posible observar cómo K-SIF puede identificar con éxito los datos ruidosos y anormales como tales. De hecho, mientras que los datos anormales están coloreados en azul oscuro, los ruidosos muestran una puntuación de color amarillo. En cambio, en FIF con α = 1 (tercer panel), tanto las curvas anormales como las ligeramente ruidosas se identifican como datos normales (dada la escala invertida y con colores azul oscuro). Cuando se trata de FIF con α = 0 (último y cuarto panel), tanto los datos anormales como los ruidosos se puntúan como curvas anormales. Por lo tanto, FIF con ambas configuraciones del parámetro α, no puede proporcionar una puntuación diferente a los datos ruidosos y ligeramente ruidosos. K-SIF, en cambio, realiza con éxito dicha tarea.

C.3. Conjunto de datos de eventos de intercambio

Esta parte proporciona una visualización del conjunto de datos utilizado en el experimento de "intercambio de eventos" de la sección 4.2 del artículo principal. La figura 8 muestra los datos simulados. Observe que definimos un conjunto de datos sintético de 100 funciones suaves dadas por



con t ∈ [0, 1] y q equiespaciados en [1, 1.4]. Luego, simulamos la ocurrencia de eventos agregando ruido gaussiano en diferentes porciones de las funciones. Seleccionamos aleatoriamente el 90% de ellas y agregamos valores gaussianos en un subintervalo, es decir,



donde ε(t) ∼ N (0, 0,8). Consideramos el 10% restante como anormal al agregar los mismos 'eventos' en otro subintervalo en comparación con el primero, es decir,



donde ε(t) ∼ N (0, 0,8). Por lo tanto, hemos construido dos eventos idénticos que ocurren en diferentes partes de las funciones, lo que conduce a anomalías aislantes.


Figura 8: Intercambio de eventos. Conjunto de datos utilizado en el experimento de la Sección 4.2. Las curvas violetas representan datos normales, mientras que las curvas amarillas representan datos anormales. La configuración de la simulación se proporciona al comienzo de la sección.

C.4. Tiempo de cálculo de K-SIF, SIF y FIF


Figura 9: Tiempo computacional para K-SIF y FIF con respecto al número de curvas (izquierda), el número de puntos de discretización (centro) y el número de dimensiones (derecha).

C.5. K-SIF y SIF: una mejor discriminación de anomalías en comparación con FIF

En esta parte, construimos un experimento de juguete adicional para demostrar el poder de discriminación de (K-)SIF sobre FIF. Simulamos 100 trayectorias de movimiento browniano planar con el 90 % de datos normales con deriva µ = [0, 0] y desviación estándar σ = [0,1, 0,1], y el 10 % de datos anormales con deriva µ = [0, 0] y desviación estándar σ = [0,4, 0,4].


La Figura 10 presenta una simulación de este conjunto de datos. Nótese que las rutas violetas representan datos normales, mientras que en naranja se representan los anormales. En este conjunto de datos, calculamos FIF (con α = 1 y diccionario browniano), K-SIF (con


Figura 10: Conjunto de datos utilizado para el experimento. Las rutas violetas son datos normales, mientras que las rutas naranjas son datos anormales.


k = 2, ω = 10 y diccionario browniano) y SIF (con k = 2 y ω = 10). Para mostrar las puntuaciones devueltas por el algoritmo, proporcionamos la Figura 11. Nótese que, los gráficos muestran las puntuaciones para estas 100 rutas, después de haberlas ordenado. Por lo tanto, el eje x proporciona el índice de las puntuaciones ordenadas, mientras que el eje y representa los valores de las puntuaciones. En cuanto a la simulación, graficamos en violeta las puntuaciones de los datos normales y en naranja las puntuaciones de los datos anormales. Los tres paneles se refieren a FIF, K-SIF y SIF, respectivamente.


Es posible observar que las puntuaciones de K-SIF y SIF separan bien los datos anormales de los normales, con un salto en las puntuaciones que es bastante pronunciado, es decir, las puntuaciones de los datos normales están relativamente distantes de las puntuaciones de los datos anormales. Si uno se centra en cambio en FIF, entonces la discriminación de tales anomalías parece ser más difícil; el primer panel muestra, de hecho, un continuo en términos de la puntuación devuelta por el algoritmo AD, que no separa los datos normales de los anormales.


En resumen, los algoritmos propuestos que aprovechan el núcleo de firma (K-SIF) y la coordenada de firma (SIF) muestran resultados más confiables en este entorno experimental, lo que sugiere su eficacia para discernir anomalías dentro del conjunto de datos simulados. Detectar el orden en que ocurren los eventos es una característica mucho más informativa que incorporar un aspecto funcional en el algoritmo de detección de anomalías. Este aspecto debe investigarse y explorarse más a fondo, en particular en las áreas de aplicación donde se tienen en cuenta datos secuenciales, como las series temporales.


Figura 11: Puntuaciones obtenidas por FIF (izquierda), K-SIF (centro) y SIF (derecha) sobre el movimiento browniano planar con datos anormales (naranja).

C.6. Datos de referencia para la detección de anomalías


C.7. Antecedentes de la función de profundidad de datos

En este contexto, las herramientas estadísticas conocidas como profundidades de datos sirven como puntuaciones de similitud intrínseca. Las profundidades de datos ofrecen una interpretación geométrica sencilla, ordenando los puntos desde el centro hacia afuera con respecto a una distribución de probabilidad (Tukey, 1975; Zuo y Serfling, 2000). Geométricamente, las profundidades de datos miden la profundidad de una muestra dentro de una distribución dada. A pesar de haber atraído la atención de la comunidad estadística, las profundidades de datos han sido en gran medida pasadas por alto por la comunidad de aprendizaje automático. Se han propuesto numerosas definiciones, como alternativas a la primera propuesta, la profundidad de semiespacio introducida en (Tukey, 1975). Entre muchas otras, se incluyen: la profundidad simplicial (Liu, 1988), la profundidad de proyección (Liu y Singh, 1993), la profundidad zonoide (Koshevoy y Mosler, 1997), la profundidad de regresión (Rousseeuw y Hubert, 1999), la profundidad espacial (Vardi y Zhang, 2000) o la profundidad AI-IRW (Clemen ´ c¸on et al., 2023) que difieren en sus propiedades y aplicaciones. La profundidad de datos encuentra muchas aplicaciones, como la definición de métricas robustas entre distribuciones de probabilidad (Staerman et al., 2021b) que compiten con métricas robustas basadas en transporte óptimo (Staerman et al., 2021a), la búsqueda de ataques adversarios en visión por computadora (Picot et al., 2022; Dadalto et al., 2023) o la detección de alucinaciones en transformadores NLP (Colombo et al., 2023; Darrin et al., 2023; Colombo et al., 2022) y LLM (Himmi et al., 2024).


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.