No mundo de Data Analytics e Business Intelligence, as equipes de dados, também chamadas de “ equipes roxas ”, que constroem soluções que são necessárias aos usuários de negócios (vermelho) e trabalham com equipes de engenharia (azul), constroem essencialmente a infraestrutura para dados. .
As equipes de BI trabalham predominantemente na construção de fluxos ou pipelines que fornecem relatórios e painéis essenciais para consumo dos usuários empresariais.
Existem muitas ferramentas de nova geração que ajudam as equipes de dados a construir essas soluções para o usuário final, como Mode , Superset e Lightdash , ou líderes do setor que já atuam no espaço de “análise de dados” há algum tempo, como Tableau ou PowerBI.
Os analistas que constroem essas soluções devem preparar seus dados de diversas fontes, garantindo que os dados sejam higienizados para consulta. Um conjunto de ferramentas ou transformações destinadas a realizar uma etapa de limpeza no fluxo de trabalho chamada “Preparação de Dados”.
Com o advento de grandes modelos de linguagem, discutir IA tem sido uma tendência comum em toda a pilha de engenharia de software. Mas e se eu disser: usando práticas de IA centradas em dados , poderíamos automatizar a limpeza da etapa de dados? Permitindo que você exporte uma versão mais limpa do conjunto de dados com o mínimo de esforço!
Neste blog, discutiremos como, usando IA centrada em dados, você pode preparar facilmente seus dados para ferramentas de BI para garantir conclusões confiáveis de sua análise de dados subsequente.
Há vários anos, os analistas de dados tinham que coletar, limpar e analisar dados manualmente, um processo demorado que limitava sua capacidade de obter insights valiosos.
Hoje, o cenário de análise de dados passou por uma transformação significativa com a introdução de ferramentas de preparação de dados como Alteryx , Tableau , etc.
Essas ferramentas eficientes simplificaram o fluxo de trabalho, permitindo que os analistas integrem perfeitamente dados de diversas fontes, automatizem tarefas de limpeza de dados e gerem representações de dados visualmente atraentes e criteriosas.
Os dados preparados com as ferramentas são analisados por meio de ferramentas de BI para identificar consultas comerciais específicas.
Por exemplo, considere este conjunto de dados de solicitações de clientes em um banco, onde os clientes registram os problemas que encontram em um portal de atendimento ao cliente, que um gerenciador de tarefas humano ou automatizado rotula.
Imagine se um analista de negócios determinasse o número de solicitações de clientes que aparecem para uma determinada categoria de problema. Abaixo está o resultado que ele veria - com a categoria beneficiary_not_allowed
mostrando 111
problemas de clientes.
Da mesma forma, se um analista quiser descobrir quantas ocorrências de problemas estão relacionadas à palavra ATM
, uma análise rápida retornaria abaixo da representação visual. Observe o número de problemas para a categoria change_pin
.
Parece simples e direto, mas se você se aprofundar no conjunto de dados , poderá descobrir que a categorização das solicitações dos clientes está errada em alguns casos.
Por exemplo:
Texto | Rótulo (conforme conjunto de dados) | Etiqueta (idealmente) |
---|---|---|
Meu cartão está quase vencido. Com que rapidez conseguirei um novo e qual é o custo? | apple_pay_or_google_pay | cartão_sobre_para_expirar |
Os dados do mundo real, na sua maior parte, são confusos e desestruturados, o que torna difícil deduzir valores através de estatísticas. Como queremos que humanos e máquinas tomem decisões baseadas em dados, seria fundamental que os dados fossem bem rotulados, isentos de quaisquer dados errados e desduplicados.
É crucial garantir que os dados utilizados nas análises sejam precisos, atualizados e livres de duplicatas. Não fazer isso pode resultar em decisões e conclusões incorretas. Por exemplo, um campo de localização vazio nos dados do perfil do usuário ou uma formatação inconsistente do campo de localização pode levar a erros. Portanto, manter a qualidade dos dados é fundamental para uma análise de dados eficaz.
IA centrada em dados é a disciplina de engenharia sistemática dos dados usados para construir um sistema de IA. A maioria dos dados no mundo real não está estruturada ou está rotulada incorretamente. Um conjunto de dados de qualidade com o conjunto certo de dados de treinamento rotulados leva a um modelo eficiente, que pode prever melhores resultados.
Melhores resultados geram uma melhor experiência do cliente. Para saber mais, você pode consultar o curso AI centrada em dados do MIT.
Cleanlab é um projeto de código aberto que ajuda a limpar dados e rótulos, detectando automaticamente problemas no conjunto de dados. Cleanlab usa aprendizagem confiante - com base em um artigo que fala sobre estimativa de incerteza em rótulos de conjuntos de dados de Curtis Northcutt (também cofundador da Cleanlab.ai ) e outros.
Cleanlab basicamente aprimora um fluxo de trabalho de análise de dados induzindo IA.
Cleanlab Studio é uma ferramenta sem código construída sobre o pacote de código aberto Cleanlab - ajuda a preparar os dados para um fluxo de trabalho de análise. Você também pode importar dados de seus data warehouses, como Databricks , Snowflake ou Cloud Object Stores, como AWS S3 .
Cadastre-se para ter acesso ao Cleanlab Studio .
Você fará logon em um painel com alguns conjuntos de dados e projetos de amostra.
Clique em “Upload Dataset” para iniciar o assistente de upload. Você pode carregar o conjunto de dados do seu computador, URL, API ou um data warehouse como Databricks e Snowflake.
Cleanlab Studio infere automaticamente seu esquema e modalidade de dados, ou seja, texto, imagem, voz ou tabular.
Depois de confirmar os detalhes, será exibida uma tela com o conjunto de dados carregado e os erros associados (se houver!) encontrados durante o upload dos dados.
Observação: o upload de alguns conjuntos de dados pode levar alguns minutos. Cleanlab irá informá-lo assim que o conjunto de dados for totalmente carregado no Cleanlab Studio por e-mail.
Com base no tipo de conjunto de dados, você pode usar uma tarefa específica de aprendizado de máquina para identificar problemas com os dados. Atualmente, Cleanlab Studio oferece suporte a diversas tarefas de classificação de ML relacionadas a dados de texto, tabulares e de imagem.
Específico para classificação, pode ser uma das classes K ou uma das classes N de K. Neste conjunto de dados, cada solicitação do cliente se enquadra em uma categoria específica. Seria uma classificação “Multiclasse”.
O Cleanlab Studio detectará automaticamente a escolha do texto e da coluna do rótulo. Você pode corrigi-lo se necessário.
Usar modelos rápidos pode não produzir os melhores resultados; no interesse do tempo, escolher Rápido é uma opção.
Clique em “ Limpar meus dados! ”
Cleanlab Studio executa um conjunto de modelos no conjunto de dados e apresenta uma visão geral do problema!
Conforme apontado anteriormente, o conjunto de dados tinha dados mal categorizados e valores discrepantes, o que pode não agregar valor ao processo geral de tomada de decisão quando analisado.
Você também pode dar uma olhada na meta-análise dos problemas identificados pelo Cleanlab Studio no conjunto de dados, alternando para a visualização analítica na parte superior.
A parte interessante do Cleanlab Studio não é apenas exportar um conjunto de dados limpo, mas oferecer uma visão de seus dados orientada para o problema. O ambiente de trabalho de preparação de dados ausente que um analista de dados e usuário de business intelligence deseja há anos.
Você pode classificar cada problema por meio de ações assistidas pelo teclado fornecidas no Cleanlab Studio OU exportar um “Export Cleanset” clicando no botão abaixo.
Vamos examinar a mesma análise de dados com o conjunto de dados limpo.
Parece que existem discrepâncias nos números entre as categorias cancel_transfer
e visa_or_mastercard
. Embora este seja um conjunto de dados menor, é importante observar que essas correções de dados podem levar a estimativas significativamente diferentes e a possíveis decisões de negócios em maior escala.
Da mesma forma, você pode descobrir que as solicitações dos clientes para algumas categorias desaparecem à medida que os problemas são marcados de forma adequada.
Se você é analista de dados ou faz parte da comunidade de business intelligence, o Cleanlab Studio pode revolucionar seu fluxo de trabalho de preparação de dados. Experimente o Cleanlab Studio hoje e experimente o poder da limpeza de dados assistida por IA para uma análise de dados mais confiável e precisa.
Cleanlab Studio é um ambiente de trabalho de preparação de dados sem código usado por milhares de engenheiros, analistas e cientistas de dados em empresas Fortune 500. Esta plataforma inovadora foi pioneira no MIT para treinar modelos de aprendizado de máquina mais confiáveis e precisos usando dados errôneos do mundo real. Você pode ingressar em nossa comunidade Slack para obter mais informações.