paint-brush
Cómo (K-)SIF supera a FIF en la detección de anomalías de datos realespor@computational

Cómo (K-)SIF supera a FIF en la detección de anomalías de datos reales

Demasiado Largo; Para Leer

El método (K-)SIF muestra claras ventajas de rendimiento sobre el método FIF en la detección de anomalías en datos reales, especialmente con el diccionario browniano. El método SIF demuestra ser el más robusto, ya que logra los mejores resultados en cinco conjuntos de datos sin depender de parámetros sensibles.
featured image - Cómo (K-)SIF supera a FIF en la detección de anomalías de datos reales
Computational Technology for All HackerNoon profile picture
0-item

Autores:

(1) Guillaume Staerman, INRIA, CEA, Univ. París-Saclay, Francia;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francia;

(3) Gareth W. Peters, Departamento de Estadística y Probabilidad Aplicada, Universidad de California en Santa Bárbara, EE.UU.

Tabla de enlaces

Resumen y 1. Introducción

2. Antecedentes y preliminares

2.1. Bosque de aislamiento funcional

2.2 El método de la firma

3. Método de bosque de aislamiento de firmas

4. Experimentos numéricos

4.1. Análisis de sensibilidad de parámetros

4.2. Ventajas del (K-)SIF sobre el FIF

4.3. Punto de referencia para la detección de anomalías con datos reales

5. Discusión y conclusión, declaraciones de impacto y referencias


Apéndice

A. Información adicional sobre la firma

B. Algoritmos K-SIF y SIF

C. Experimentos numéricos adicionales

4.3. Punto de referencia para la detección de anomalías con datos reales

Para evaluar la efectividad de los algoritmos (K-)SIF propuestos y proporcionar una comparación con FIF, realizamos un análisis comparativo utilizando diez conjuntos de datos de detección de anomalías construidos en Staerman et al. (2019) y obtenidos del repositorio UCR (Chen et al., 2015). A diferencia de Staerman et al. (2019), no utilizamos una parte de entrenamiento/prueba ya que las etiquetas no se utilizan para el entrenamiento y entrenamos y evaluamos modelos solo en los datos de entrenamiento. Evaluamos el rendimiento de los algoritmos cuantificando el AUC bajo las curvas ROC.



Tabla 1: AUC de diferentes métodos de detección de anomalías calculada en el equipo de prueba. Los números en negrita corresponden al mejor resultado.


Por un lado, la Figura 4 ilustra la disparidad de rendimiento entre FIF y K-SIF utilizando el diccionario browniano. Cabe destacar que K-SIF exhibe una ventaja de rendimiento significativa sobre FIF. Esta observación subraya la eficacia del kernel de firma para mejorar el rendimiento de FIF en la mayoría de los conjuntos de datos, lo que enfatiza las ventajas de utilizarlo en lugar de un producto interno simple. Por otro lado, considerando la complejidad de los datos funcionales, no se espera que ningún método único supere a otros universalmente.


Sin embargo, SIF demuestra un buen desempeño en la mayoría de los casos, logrando los mejores resultados para cinco conjuntos de datos. A diferencia de FIF y K-SIF, muestra solidez ante la variedad de conjuntos de datos sin verse drásticamente afectado por la elección de los parámetros involucrados en FIF (diccionario y producto interno) y K-SIF (diccionario).


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.