Autores:
(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, França;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, França;
(3) Gareth W. Peters, Departamento de Estatística e Probabilidade Aplicada, Universidade da Califórnia em Santa Bárbara, EUA.
2. Antecedentes e Preliminares
2.1. Floresta de Isolamento Funcional
3. Método de isolamento de assinatura da floresta
4.1. Análise de Sensibilidade dos Parâmetros
4.2. Vantagens do (K-)SIF sobre o FIF
4.3. Benchmark de detecção de anomalias em dados reais
5. Discussão e Conclusão, Declarações de Impacto e Referências
Apêndice
A. Informações adicionais sobre a assinatura
C. Experimentos Numéricos Adicionais
Nesta seção, apresentamos experimentos numéricos adicionais em apoio aos algoritmos propostos e argumentos desenvolvidos no corpo principal do artigo. Primeiro, descrevemos o papel da profundidade da assinatura nos algoritmos e explicamos como esse parâmetro os afeta. Fornecemos boxplots para dois conjuntos de dados gerados e argumentamos a importância do parâmetro de profundidade neste contexto. Depois, fornecemos experimentos adicionais sobre a robustez à vantagem de ruído do (K)-SIF sobre o FIF, relacionados à Seção 4.2 do corpo principal do artigo. O terceiro parágrafo se refere aos dados gerados para o experimento de 'eventos de troca' na seção 4.2 do corpo principal do artigo é mostrado. Fornecemos uma Figura para visualização e melhor compreensão. Observamos ainda como construímos os dados. A quarta subseção demonstra o tempo computacional dos algoritmos propostos com uma comparação direta com o FIF. Em seguida, é apresentado um experimento adicional apresentando mais evidências para o poder de discriminação com relação à tarefa AD do (K)-SIF sobre o FIF. Por fim, a última subseção mostra uma Tabela que descreve informações sobre o tamanho dos conjuntos de dados relacionados ao benchmark na Seção 4.3.
Neste experimento, investigamos o impacto deste parâmetro no K-SIF com duas classes diferentes de processos estocásticos. O movimento browniano tridimensional (com µ = 0 e σ = 0,1), caracterizado por seus dois primeiros momentos, e o processo de difusão Merton-jump unidimensional, um processo de cauda pesada amplamente usado para modelar o mercado de ações. Em tal
Algoritmos
dessa forma, comparamos a primeira classe de modelos estocásticos com a última, que, em vez disso, não pode ser caracterizada pelos dois primeiros momentos e observamos desempenhos de (K)-SIF a esse respeito.
Calculamos o K-SIF com três dicionários com níveis de truncamento variando em {2, 3, 4} para ambos os conjuntos de dados simulados. Definimos o número de janelas divididas para 10, de acordo com a seção anterior, e o número de árvores para 1000. Depois disso, calculamos a correlação de Kendall da classificação retornada por esses modelos para as três configurações de pares: nível 2 vs nível 3, nível 2 vs nível 4 e nível 3 vs nível 4.
Repetimos esse experimento 100 vezes e relatamos os boxplots de correlação na Figura 5 para o movimento browniano e na Figura 6 para o processo de difusão Merton-jump. Observe que os gráficos esquerdo e direito se referem aos diferentes parâmetros de janela dividida selecionados para K-SIF, correspondendo a ω = 3 para os painéis esquerdos, enquanto, para os direitos, escolhemos ω = 5. Esses boxplots mostram a correlação tau de Kendall entre a pontuação retornada por um dos algoritmos usados com uma profundidade específica e o mesmo algoritmo com uma profundidade diferente. Os resultados do K-SIF com os três dicionários são representados em azul, laranja e verde para as wavelets browniana, cosseno e gaussiana verde, respectivamente. Os boxplots SIF estão em roxo. O eixo y se refere aos valores de correlação de Kendall e o eixo x às configurações dos valores de profundidade com relação aos quais a correlação foi feita.
Uma correlação alta indica uma classificação equivalente retornada pelo algoritmo com diferentes parâmetros de profundidade. Portanto, se a correlação for alta, isso sugere que esse parâmetro não afeta os resultados do algoritmo considerado, e uma profundidade menor deve ser selecionada para melhor eficiência computacional. Correlações altas são mostradas para SIF (boxplots roxos) e K-SIF para os dois dicionários, ou seja, Browniano e Cosseno (boxplots azul e laranja). Portanto, é recomendável escolher o nível mínimo de truncamento para melhorar a eficiência computacional. Para os mesmos algoritmos, correlações ligeiramente menores são identificadas no caso dos processos de Merton, mas ainda em torno de 0,8 níveis, apoiando, portanto, uma afirmação equivalente. No caso de K-SIF com o dicionário gaussiano (boxplots verdes), uma variação muito maior é obtida em relação aos resultados de correlação entre os três cenários testados. Além disso, no caso dos processos de difusão Merton-jump, os resultados mostram uma correlação menor, consistente com os outros resultados. Portanto, no caso de K-SIF com tal dicionário, a profundidade deve ser cuidadosamente escolhida, pois parâmetros diferentes podem levar a uma melhor detecção dos momentos do processo subjacente.
Esta parte fornece experimentos adicionais sobre a robustez à vantagem de ruído do (K)-SIF sobre o FIF, relacionado à Seção 4.2 do corpo principal do artigo. A configuração para simulação de dados é a seguinte. Definimos um conjunto de dados sintéticos de 100 funções suaves fornecidas por
onde ε(t) ∼ N (0, 0,5). Selecionamos aleatoriamente 10% novamente e criamos curvas ligeiramente ruidosas adicionando um pequeno ruído em outro subintervalo comparado ao primeiro, ou seja,
onde ε(t) ∼ N (0, 0,1).
A Figura 7 fornece uma visualização resumida do conjunto de dados gerado no primeiro painel. As 10 curvas anômalas são plotadas em vermelho, enquanto as 10 consideradas dados normais levemente ruidosos são plotadas em azul. O restante das curvas, consideradas dados normais, é fornecido em cinza. A ideia é entender como a escolha do dicionário influencia K-SIF e FIF na detecção de dados normais levemente ruidosos versus ruído anormal. Os resultados para K-SIF e FIF são fornecidos no segundo, terceiro e quarto painéis da Figura 7, respectivamente.
Calculamos K-SIF com um dicionário Browniano, k = 2 e ω = 10 e FIF para α = 0 e α = 1 também com um dicionário Browniano. As cores dos painéis representam a pontuação de anomalia atribuída a cada curva para aquele algoritmo específico. No segundo (K-SIF) e último (FIF com α = 0) painéis, a pontuação de anomalia aumenta de amarelo para azul escuro, ou seja, uma curva escura é anormal e amarelo é normal, enquanto, no terceiro gráfico (FIF com α = 1) é o oposto, ou seja, uma curva escura é normal e amarelo é anormal.
É possível observar como o K-SIF consegue identificar com sucesso dados ruidosos e anormais como tais. De fato, enquanto os dados anormais são coloridos em azul escuro, os ruidosos exibem uma pontuação de cor amarela. Em vez disso, no FIF com α = 1 (terceiro painel), tanto as curvas anormais quanto as ligeiramente ruidosas são identificadas como dados normais (dada a escala invertida e tendo cores azul escuro). Quando se trata do FIF com α = 0 (último e quarto painel), tanto os dados anormais quanto os ruidosos são pontuados como curvas anormais. Portanto, o FIF com ambas as configurações do parâmetro α não pode fornecer uma pontuação diferente para dados ruidosos e ligeiramente ruidosos. O K-SIF, em vez disso, executa com sucesso tal tarefa.
Esta parte fornece uma visualização do conjunto de dados usado no experimento de 'eventos de troca' na seção 4.2 do artigo principal. A Figura 8 mostra os dados simulados. Observe que definimos um conjunto de dados sintético de 100 funções suaves fornecidas por
com t ∈ [0, 1] e q equiespaçados em [1, 1.4]. Então, simulamos as ocorrências de eventos adicionando ruído gaussiano em diferentes porções das funções. Selecionamos aleatoriamente 90% delas e adicionamos valores gaussianos em um subintervalo, ou seja,
onde ε(t) ∼ N (0, 0,8). Consideramos os 10% restantes como anormais adicionando os mesmos 'eventos' em outro subintervalo comparado ao primeiro, ou seja,
onde ε(t) ∼ N (0, 0,8). Construímos então dois eventos idênticos ocorrendo em partes diferentes das funções, levando ao isolamento de anomalias.
Nesta parte, construímos um experimento de brinquedo adicional para mostrar o poder de discriminação de (K-)SIF sobre FIF. Simulamos 100 caminhos de movimento browniano planar com 90% de dados normais com desvio µ = [0, 0] e desvio padrão σ = [0,1, 0,1], e 10% de dados anormais com desvio µ = [0, 0] e desvio padrão σ = [0,4, 0,4].
A Figura 10 apresenta uma simulação deste conjunto de dados. Note que os caminhos roxos representam dados normais, enquanto que, em laranja, os anormais são representados. Neste conjunto de dados, calculamos FIF (com α = 1 e dicionário Browniano), K-SIF (com
k = 2, ω = 10 e dicionário Browniano) e SIF (com k = 2 e ω = 10). Para exibir as pontuações retornadas pelo algoritmo, fornecemos a Figura 11. Observe que os gráficos mostram as pontuações para esses 100 caminhos, após classificá-los. Portanto, o eixo x fornece o índice das pontuações ordenadas, enquanto o eixo y representa os valores das pontuações. Quanto à simulação, plotamos em roxo as pontuações dos dados normais e em laranja as pontuações dos dados anormais. Os três painéis referem-se a FIF, K-SIF e SIF, respectivamente.
É possível observar que as pontuações de K-SIF e SIF separam bem os dados anormais e normais, com um salto nas pontuações que é bastante pronunciado, ou seja, as pontuações dos dados normais são relativamente distantes das pontuações dos dados anormais. Se alguém se concentrar em FIF, então a discriminação de tais anomalias parece ser mais desafiadora; o primeiro painel mostra, de fato, um contínuo em termos da pontuação retornada pelo algoritmo AD, que não separa dados normais e anormais.
Em resumo, os algoritmos propostos que alavancam o kernel de assinatura (K-SIF) e a coordenada de assinatura (SIF) exibem resultados mais confiáveis neste cenário experimental, sugerindo sua eficácia em discernir anomalias dentro do conjunto de dados simulado. Detectar a ordem em que os eventos acontecem é um recurso muito mais informativo do que incorporar um aspecto funcional no algoritmo de detecção de anomalias. Este aspecto deve ser mais investigado e explorado, particularmente nas áreas de aplicação onde dados sequenciais, como séries temporais, são levados em consideração.
Ferramentas estatísticas conhecidas como profundidades de dados servem como pontuações de similaridade intrínsecas neste contexto. As profundidades de dados oferecem uma interpretação geométrica direta, ordenando pontos do centro para fora com relação a uma distribuição de probabilidade (Tukey, 1975; Zuo e Serfling, 2000). Geometricamente, as profundidades de dados medem a profundidade de uma amostra dentro de uma distribuição dada. Apesar de atrair a atenção da comunidade estatística, as profundidades de dados foram amplamente negligenciadas pela comunidade de aprendizado de máquina. Várias definições foram propostas, como alternativas à proposta mais antiga, a profundidade do meio-espaço introduzida em (Tukey, 1975). Entre muitas outras, estas incluem: a profundidade simplicial (Liu, 1988), a profundidade de projeção (Liu e Singh, 1993), a profundidade zonoidal (Koshevoy e Mosler, 1997), a profundidade de regressão (Rousseeuw e Hubert, 1999), a profundidade espacial (Vardi e Zhang, 2000) ou a profundidade AI-IRW (Clemen ´ c¸on et al., 2023), diferindo em suas propriedades e aplicações. A profundidade dos dados encontra muitas aplicações, como definir métricas robustas entre distribuição de probabilidade (Staerman et al., 2021b) competindo com métricas robustas baseadas em transporte ótimo (Staerman et al., 2021a), encontrar ataques adversários em visão computacional (Picot et al., 2022; Dadalto et al., 2023) ou detectar alucinações em transformadores de PNL (Colombo et al., 2023; Darrin et al., 2023; Colombo et al., 2022) e LLM (Himmi et al., 2024).
Este artigo está disponível no arxiv sob a licença CC BY 4.0 DEED.