A detecção de anomalias pode ajudá-lo a identificar tendências futuras antes de seus concorrentes. Ele pode sinalizar transações fraudulentas monitorando o tráfego da loja online e detectar violência em locais públicos, dando à sua equipe de segurança a chance de interferir antes que as pessoas se machuquem.
Interessado? Existem empresas dedicadas à detecção de anomalias que podem ajudá-lo a criar e integrar software personalizado para detectar desvios comportamentais em seu setor de operações.
Então, o que é detecção de anomalias? Como funciona? E como você pode incorporá-lo aos processos e fluxos de trabalho da sua empresa?
O que é detecção de anomalias?
Como funciona a detecção de anomalias?
Casos de uso de detecção de anomalias chave
Introdução à detecção de anomalias
Como o ITRex pode ajudar na detecção de anomalias
A detecção de anomalias é um tipo de mineração de dados que analisa os dados de uma empresa para detectar pontos de dados que se desviam da linha de base estabelecida (por exemplo, o comportamento padrão do conjunto de dados). Esses outliers geralmente indicam incidentes, como falhas técnicas em equipamentos, mudanças na preferência do cliente e outros tipos de anormalidades, permitindo que as empresas atuem antes que o dano seja feito.
Uma anomalia é um ponto de dados inconsistente que se desvia de um padrão familiar. Embora nem sempre represente uma preocupação significativa, vale a pena investigar para evitar possíveis agravamentos. Por exemplo, um aumento nas vendas de produtos pode ser resultado de uma campanha de marketing bem-sucedida ou pode indicar uma mudança nas tendências e no comportamento do cliente, às quais as empresas terão que se adaptar.
As anomalias de dados de negócios se enquadram em três categorias atípicas:
Um outlier global é um ponto de dados localizado anormalmente longe do restante dos dados. Vamos supor que você receba $ 7.000 em sua conta bancária todos os meses. Se de repente você receber uma transferência de $ 50.000, isso seria um valor discrepante global.
Um outlier contextual se desvia do resto dos dados dentro do mesmo contexto. Por exemplo, se você mora em um país onde normalmente neva no inverno e o clima é quente no verão, é normal que haja fortes nevascas no inverno. Mas experimentar uma nevasca durante o verão seria uma exceção contextual.
Um outlier coletivo é quando um subconjunto de pontos de dados se desvia de todo o conjunto de dados. Por exemplo, se você observar quedas incomuns nas vendas de vários produtos aparentemente não relacionados, mas perceber que isso está de alguma forma conectado, suas observações serão combinadas em um outlier coletivo.
A maioria das empresas lida com grandes volumes de dados estruturados e não estruturados, sendo que estes últimos compreendem até 90% das informações geradas dentro de uma empresa. É impossível processar todas essas informações manualmente e gerar insights significativos — principalmente se falamos de dados não estruturados, que são compostos por imagens, transações, texto em formato livre etc.
A pesquisa mostra que as técnicas de aprendizado de máquina são a melhor escolha para processar grandes conjuntos de dados não estruturados. Este campo possui um extenso número de algoritmos, e você pode selecionar o que melhor lhe convier. Você também pode combinar várias técnicas de ML para obter os melhores resultados.
Existem três tipos principais de técnicas de detecção de anomalias baseadas em IA e aprendizado de máquina.
Detecção supervisionada de anomalias . Aqui, os modelos de ML são treinados e testados com um conjunto de dados totalmente rotulado contendo comportamento normal e anômalo. A abordagem funciona bem ao detectar desvios que faziam parte de um conjunto de dados de treinamento, mas a tecnologia tropeça ao enfrentar uma nova anomalia que não foi vista no treinamento. Técnicas supervisionadas requerem esforço manual e conhecimento de domínio, pois alguém precisa rotular os dados.
Detecção de anomalia não supervisionada . Este método não precisa de rotulagem manual de dados. Os modelos assumem que apenas uma pequena porcentagem de pontos de dados que diferem significativamente do resto dos dados constituem anomalias. As técnicas não supervisionadas ainda podem se destacar na identificação de novas anomalias que não testemunharam durante o treinamento porque detectam valores discrepantes com base em suas características, e não no que aprenderam durante o treinamento. No entanto, esses algoritmos são bastante complexos e sua arquitetura é uma caixa preta, o que significa que os usuários não receberão uma explicação de como a ferramenta tomou suas decisões.
Detecção semi-supervisionada de anomalias . Essas técnicas envolvem dados rotulados e não rotulados, o que reduz as despesas de anotação manual. Além disso, um modelo de detecção de anomalias semissupervisionado ainda pode aprender após a implantação e detectar anomalias que não viu no treinamento. E, assim como as técnicas não supervisionadas, esses modelos também podem funcionar com dados não estruturados.
A detecção de anomalias depende de inteligência artificial e seus subtipos, incluindo aprendizado de máquina. Aqui estão cinco técnicas de ML que são frequentemente implantadas nesse contexto.
Autoencoders são redes neurais artificiais não supervisionadas que comprimem dados e depois os reconstroem para se parecerem com a forma original o mais próximo possível. Esses algoritmos podem efetivamente ignorar o ruído e reconstruir texto, imagens e outros tipos de dados. Um autoencoder tem duas partes:
Codificador, que comprime os dados de entrada
Decodificador, que descompacta os dados próximos à sua forma original
Ao usar um autoencoder, preste atenção ao tamanho do código, pois ele determinará a taxa de compactação. Outro parâmetro importante é o número de camadas. Com menos camadas, o algoritmo será mais rápido, mas pode funcionar em menos recursos.
Essa técnica é um tipo de modelo baseado em gráfico probabilístico que calcula a probabilidade com base na inferência bayesiana. Os nós em um grafo correspondem a variáveis aleatórias, enquanto as arestas representam dependências condicionais que permitem que o modelo faça inferências.
As redes bayesianas são usadas em diagnósticos, modelagem causal, raciocínio e muito mais. Na detecção de anomalias, esse método é particularmente útil para detectar desvios sutis que são difíceis de detectar usando outras técnicas. Esse método também pode tolerar dados ausentes durante o treinamento e ainda terá desempenho sólido se treinado em pequenos conjuntos de dados.
Esta é uma técnica de agrupamento de ML não supervisionada que detecta padrões confiando puramente na localização espacial e distâncias entre vizinhos. Ele compara o valor de densidade de um ponto de dados com a densidade de seus pontos de dados vizinhos. Um outlier (uma anomalia) terá um valor de densidade mais baixo do que outras populações de dados.
Este é um algoritmo de ML supervisionado que é comumente usado para classificação. No entanto, as extensões SVM também podem operar em um ambiente não supervisionado. Essa técnica usa hiperplanos para dividir pontos de dados em classes.
Embora o SVM normalmente trabalhe com duas ou mais classes, na detecção de anomalias, ele pode analisar problemas de classe única. Ele aprende “a norma” para esta classe e determina se um ponto de dados pode pertencer a esta classe ou se é um outlier.
GMM é uma técnica de agrupamento probabilístico. Essa técnica classifica os dados em diferentes clusters com base na distribuição de probabilidade. Ele assume que os pontos de dados pertencem a uma mistura de distribuições gaussianas com parâmetros desconhecidos e detecta anomalias localizando dados em regiões de baixa densidade.
Agora que você sabe como a detecção de anomalias funciona nos bastidores e as técnicas de IA nas quais ela se baseia, é hora de estudar alguns exemplos de detecção de anomalias em diferentes setores.
A detecção de anomalias pode beneficiar o setor médico, ajudando os médicos a identificar quaisquer problemas com a saúde do paciente, detectar agravamentos em pacientes internados e notificar a equipe médica antes que seja tarde demais, além de auxiliar no diagnóstico e na seleção do tratamento. Tudo isso reduz o trabalho manual e a carga cognitiva que os médicos experimentam.
No entanto, a detecção de anomalias tem seus desafios únicos na área da saúde.
Um problema é que pode ser difícil estabelecer a linha de base (ou seja, o comportamento normal) quando se trata de diferentes diagramas médicos. Por exemplo, um eletroencefalograma de uma pessoa saudável varia de acordo com as características individuais. Os pesquisadores identificaram variações consideráveis em crianças , e há diferenças em adultos dependendo da faixa etária e do sexo.
Outro aspecto é que os modelos de ML devem ser altamente precisos, pois a vida das pessoas dependerá de seu desempenho.
Os algoritmos de detecção de anomalias médicas podem analisar as seguintes informações:
Um exemplo de detecção de anomalias vem de uma equipe de pesquisa na África do Sul. Eles combinaram com sucesso técnicas de autoencoder e aumento de gradiente extremo para monitorar as variáveis fisiológicas de pacientes com COVID-19 e detectar quaisquer anomalias que indicassem degradação da saúde.
Outra equipe concentrou-se não apenas na detecção de anomalias, mas também em explicar por que a ferramenta as sinalizava como tal . Então, primeiro, eles usaram técnicas de detecção de anomalias para detectar desvios e, em seguida, implantaram algoritmos de mineração de aspectos para delinear um conjunto de recursos nos quais um determinado ponto de dados é considerado um outlier.
Os ambientes esportivos e de entretenimento contam com um amplo monitoramento de segurança baseado em vídeo com centenas de câmeras. Portanto, não seria possível para as equipes de segurança detectar e reagir a acidentes em tempo hábil se a filmagem fosse revisada manualmente. Graças ao aprendizado de máquina, os algoritmos podem analisar os vídeos transmitidos de cada câmera da instalação e detectar violações de segurança.
À medida que os modelos de ML continuam aprendendo no trabalho, eles podem identificar ameaças e violações que seus operadores humanos não poderiam ter percebido. Esses algoritmos podem detectar vandalismo, distúrbios entre os espectadores, fumaça, objetos suspeitos e muito mais, e alertar a equipe de segurança para que tenham tempo de agir e evitar responsabilidades e danos à reputação.
Um desses projetos sai direto do nosso portfólio. Uma empresa de entretenimento com sede nos EUA, com salas de jogos localizadas em todo o país, recorreu à ITRex para criar uma solução de detecção de anomalias baseada em ML que se integrasse ao seu sistema de vigilância por vídeo baseado em nuvem. Este aplicativo detectaria qualquer comportamento perigoso e violento, como quebrar máquinas caça-níqueis. Também agilizaria o processo administrativo, identificando itens esquecidos e máquinas que estão fora de serviço.
Nossa equipe criou um modelo de ML personalizado usando um autoencoder variacional. Agregamos um conjunto de dados de treinamento de 150 vídeos retratando violência física e danos à propriedade e pré-processamos esses vídeos com a estrutura OpenCV. Em seguida, contamos com a biblioteca do Torchvision para normalizar e aumentar os dados e a usamos para treinar o algoritmo de ML.
A solução resultante baseou-se na validação cruzada para detectar anomalias. Por exemplo, ele pode identificar máquinas caça-níqueis com defeito “lendo” a mensagem de erro na tela e validando-a em relação aos modelos de tela disponíveis. A solução final integrou-se perfeitamente ao sistema de segurança baseado em nuvem do cliente, monitorou as máquinas caça-níqueis 24 horas por dia, 7 dias por semana e notificou o pessoal de segurança sempre que detectou uma anomalia.
À medida que os processos de fabricação se tornam cada vez mais automatizados, o maquinário se torna mais complexo e as instalações ficam maiores. Consequentemente, as abordagens tradicionais de monitoramento não são mais suficientes.
As técnicas de detecção de anomalias podem retratar diferentes desvios da norma em suas instalações e notificá-lo antes que eles aumentem e até aprendam a distinguir entre problemas menores e preocupações urgentes.
Existem inúmeros benefícios de detecção de anomalias para a fabricação. Essas ferramentas podem identificar os seguintes problemas:
Mau funcionamento do equipamento . Em colaboração com os sensores de fabricação da Internet das Coisas (IoT), os algoritmos de IA podem monitorar vários parâmetros do dispositivo, como vibração, temperatura etc., e detectar quaisquer desvios da norma. Tais alterações podem indicar que o equipamento está sobrecarregado, mas também podem significar o início de uma pane. O algoritmo sinalizará o equipamento para inspeção adicional. Isso também é chamado de manutenção preditiva.
Subutilização de equipamentos . As soluções de detecção de anomalias baseadas em ML podem ver quais dispositivos permanecem inativos por um período prolongado e incitar o operador a equilibrar a distribuição de carga.
Riscos de segurança . Ao monitorar os feeds das câmeras de segurança, o software de detecção de anomalias pode detectar funcionários que não estão cumprindo os protocolos de segurança da fábrica, colocando em risco seu próprio bem-estar. Se seus funcionários usam wearables para monitoramento de segurança, o aprendizado de máquina pode analisar os dados do sensor para detectar trabalhadores exaustos e doentes e incentivá-los a fazer uma pausa ou sair naquele dia.
Questões de infraestrutura . Os algoritmos de ML podem detectar vazamentos de água ou gás e qualquer outro dano à infraestrutura e notificar o gerente do site correspondente.
Um exemplo de solução de detecção de anomalias de fabricação vem da Hemlock Semiconductor, uma produtora de polissilício hiperpuro com sede nos Estados Unidos. A empresa implantou a detecção de anomalias para obter visibilidade de seus processos e registrar quaisquer desvios dos padrões de produção ideais. A empresa relatou economizar cerca de US$ 300.000 por mês no consumo de recursos.
A detecção de anomalias pode ajudar os varejistas a identificar padrões incomuns de comportamento e usar esses insights para melhorar as operações e proteger seus negócios e clientes. Os algoritmos de IA podem captar as mudanças nas demandas dos clientes e alertar os varejistas para que parem de adquirir produtos que não serão vendidos enquanto reabastecem os itens que estão em demanda. Além disso, as anomalias podem representar oportunidades de negócios em estágios iniciais, permitindo que os varejistas as capitalizem antes da concorrência. No caso do comércio eletrônico, os proprietários de sites podem implantar modelos de detecção de anomalias para monitorar o tráfego e identificar comportamentos incomuns que possam sinalizar atividades fraudulentas.
Além disso, os varejistas podem usar técnicas de detecção de anomalias para proteger suas instalações. Na ITRex, realizamos uma série de PoCs para construir uma solução capaz de detectar expressões de violência, como brigas, em vídeos transmitidos por câmeras de segurança instaladas em shoppings e outros locais públicos. A solução se baseia no método de detecção de anomalias de redes neurais convolucionais 3D, que foi treinado em um extenso conjunto de dados de luta. Esse tipo de algoritmo de ML é conhecido por ter um bom desempenho em tarefas de detecção de ação. Se você estiver interessado em tal solução, podemos mostrar a demonstração completa para começar. Em seguida, nossa equipe ajustará o algoritmo e ajustará suas configurações para corresponder às especificidades de sua localização e empresa, e o integraremos perfeitamente ao seu sistema de segurança existente.
Como você pode ver, treinar modelos personalizados de IA para detecção pontual de anomalias pode ser um desafio técnico. É por isso que nossa equipe preparou um guia de cinco etapas para empresas de olho na nova tecnologia. Role para baixo para obter algumas dicas de especialistas - e considere baixar nosso guia de negócios para inteligência artificial se você for novo em IA ou buscar mais informações sobre aplicativos de IA e custos de projetos.
Existem duas opções aqui. Você está procurando anomalias específicas em seus dados ou deseja sinalizar tudo o que se desvia do comportamento padrão. O que você escolher aqui afetará seus dados de treinamento e restringirá a seleção de técnicas de IA.
Se você quiser capturar todos os eventos que se desviam da linha de base, treinará o modelo em um grande conjunto de dados que representa o comportamento normal. Por exemplo, se você estiver trabalhando com direção e segurança no trânsito, seu conjunto de dados será composto de vídeos mostrando direção segura.
Suponha que você esteja procurando detectar anomalias específicas — por exemplo, batidas de carro, mas não violações menores, como dirigir em um sinal vermelho. Nesse caso, seu conjunto de dados de treinamento incluirá vídeos ou imagens de acidentes de carro.
O resultado da etapa anterior ajudará você a decidir qual tipo de dados você precisa.
Colete os dados de suas fontes internas da empresa ou use conjuntos de dados disponíveis publicamente. Em seguida, limpe esses dados para eliminar duplicatas e quaisquer entradas incorretas ou desbalanceadas. Quando o conjunto de dados é limpo, você pode usar escala, normalização e outras técnicas de transformação de dados para tornar o conjunto adequado para algoritmos de IA. Divida seu conjunto de dados em três partes:
Para obter mais informações, confira nosso guia detalhado sobre como preparar dados para aprendizado de máquina .
Esta etapa só é relevante se você deseja criar uma solução personalizada. Você ou seu fornecedor de tecnologia selecionará a técnica de inteligência artificial mais adequada para lidar com o problema de negócios. Existem três fatores principais a serem considerados aqui:
A tarefa em mãos (consulte a Etapa 1 acima). Se você deseja detectar anomalias definidas especificamente, o Variational Autoencoder (VAE) é uma ótima opção.
Os requisitos técnicos . Isso pode incluir os níveis de precisão e detalhes que você pretende alcançar. Por exemplo, se você deseja treinar um modelo de ML que identifica anomalias em vídeos, é fundamental decidir sobre a taxa de quadros ideal, pois algoritmos diferentes analisam quadros em velocidades diferentes. Desde que a anomalia que você deseja detectar possa ocorrer em um segundo, é recomendável que você estude cada quadro em um videoclipe e usar algoritmos mais lentos, como VAE, torna-se impraticável. A Decomposição de Valor Singular (SVD), por outro lado, pode fazer o trabalho consideravelmente mais rápido.
O tamanho do seu conjunto de dados de treinamento . Alguns modelos, como autoencoders, não podem ser treinados adequadamente em pequenos conjuntos de dados.
Você pode comprar um software de detecção de anomalias pronto ou implementar um sistema personalizado que corresponda às suas necessidades exclusivas e seja adaptado ao tipo de anomalias em que você está interessado.
Você pode optar por um sistema de detecção de anomalias pronto para uso quando tiver recursos financeiros limitados, nenhum conjunto de dados de treinamento personalizado ou nenhum tempo para treinamento de modelo, e você pode encontrar um fornecedor que já oferece uma solução que pode detectar o tipo de anomalias você está preocupado. Mas lembre-se de que essas soluções têm suposições internas sobre as características dos dados e terão um bom desempenho enquanto essas suposições forem válidas. No entanto, se os dados da sua empresa se desviarem dessa linha de base, o algoritmo poderá não detectar anomalias com a mesma precisão.
Se você tiver dados suficientes para treinar algoritmos de IA, poderá contratar uma empresa de desenvolvimento de aprendizado de máquina para criar e treinar uma solução personalizada de detecção de anomalias. Esta opção será projetada para atender às suas necessidades de negócios e se adequar aos seus processos. Outro grande benefício é que você ainda pode otimizar essa solução mesmo após a implantação. Você pode ajustar suas configurações para fazê-lo funcionar mais rápido ou se concentrar em diferentes parâmetros, dependendo dos requisitos de negócios em constante mudança.
Você implantará a solução de detecção de anomalias localmente ou na nuvem. Se você trabalha com ITRex, teremos duas opções para você escolher:
Detecção de anomalias baseada em nuvem , onde agregamos dados de seus sistemas de software, dispositivos e serviços de terceiros e os transmitimos para a nuvem para armazenamento e processamento para reduzir a carga de seus recursos locais.
Detecção de anomalias de borda , em que os algoritmos de ML analisam seus dados localmente e carregam apenas uma parte dos dados na nuvem. Essa abordagem é mais adequada para sistemas de missão crítica que não toleram atrasos, como veículos autônomos e soluções médicas de IoT.
Os algoritmos de ML continuam aprendendo no trabalho, o que permite que eles se adaptem a novos tipos de dados. Mas isso também significa que eles podem adquirir preconceitos e outras tendências indesejáveis. Para evitar esse cenário, você pode agendar uma auditoria para reavaliar o desempenho dos algoritmos e fazer os ajustes necessários.
No ITRex Group, temos vasta experiência com modelos de aprendizado de máquina, como Beta-Variational Autoencoders (Beta-VAE) e Gaussian Mixture Models (GMM), IoT, análise de dados e visualização de dados. Implementamos essas tecnologias em diferentes setores, por isso estamos cientes das especificidades que setores fortemente regulamentados, como saúde, trazem. Usamos uma combinação de tecnologia proprietária e de código aberto, como ferramentas de mineração de dados e estruturas de ML, para desenvolver soluções personalizadas e integrá-las aos seus processos de negócios.
Nossas soluções personalizadas baseadas em IA para detecção de anomalias podem funcionar com ambas as tarefas — detectar anomalias predefinidas e detectar qualquer desvio do comportamento padrão estabelecido. Você pode optar pela nuvem para economizar na infraestrutura, ou podemos fazer o sistema rodar localmente para dar suporte a aplicações críticas que não toleram latência.
Interessado em implementar um sistema de detecção de anomalias? Deixe-nos cair uma linha ! Podemos ajudá-lo a criar e treinar um modelo de ML personalizado. Mesmo que você opte por uma solução pronta, se for de código aberto e tiver uma API, ainda podemos retreiná-la com seus próprios dados para que ela se adapte melhor ao seu sistema!