A imagem principal foi gerada com Midjourney Diffusion com o prompt “A python prevalece, digital fantasy art”.
A ciência de dados é onde estatísticas, programação e comunicação se cruzam. Um cientista de dados faz uma pergunta e usa dados para respondê-la por meio de mecanismos de complexidade variada. Eles têm o conhecimento e o kit de ferramentas para saber quais testes e métodos aplicar a cada tipo de dados. E eles têm a capacidade de extrair respostas dos dados e retransmitir essas respostas em uma forma geral de comunicação cotidiana.
Os dados podem variar de simples a altamente complexos. Pode ser “limpo” e pode ser “bagunçado”. Às vezes temos uma pergunta, mas não temos os dados. Um cientista e/ou analista de dados deve transformar dados confusos em dados limpos usando ferramentas especializadas. Eles também podem desenvolver '
As enquetes semanais do HackerNoon (10/4/2023 a 16/4/2023) foram usadas para avaliar onde nossos leitores se enquadram neste tópico. A comunidade HackerNoon foi questionada sobre qual é sua ferramenta de ciência de dados de trabalho, dadas algumas das opções mais populares e 374 pessoas responderam. Os resultados podem ser vistos na imagem abaixo:
Por que existem tantas ferramentas para escolher?
Vamos ver alguns destaques de cada ferramenta da enquete. Claro, existem mais ferramentas não discutidas aqui 😆
❌ Código aberto.
✅ É amigável ao estilo da Microsoft!
❌ Não é avançado o suficiente para projetos complexos de ciência de dados.
✅ Gera tabelas e gráficos elegantes que podem ser facilmente exportados.
Estamos todos familiarizados com o Excel. Claro, é ótimo para tarefas diárias, como manipulação de dados, limpeza e visualizações, mas não é suficiente para projetos mais avançados. Você pode ser habilidoso com a criação de painéis e relatórios e pode até configurar APIs especializadas no Excel.
✅ Código aberto.
❌ Tem uma curva de aprendizado significativa.
✅ Pode gerar gráficos, tabelas e resultados organizados e personalizáveis.
❌ Pode ser limitado em algumas das ferramentas de aprendizado de máquina mais avançadas.
✅ Especializado em problemas de base estatística.
Um programa de código aberto versátil que é excelente para análise de dados e ciência de dados é
** “Nossa missão é criar software de código aberto para ciência de dados, pesquisa científica e comunicação técnica. Fazemos isso para potencializar a produção e o consumo de conhecimento por todos, independentemente dos meios econômicos”. -- Positivo \ Semelhante ao Python, a versatilidade da linguagem de programação R é vasta, permitindo que os cientistas de dados executem tarefas complexas usando várias abordagens. Bibliotecas e pacotes estão sendo constantemente desenvolvidos para assumir tarefas especializadas das quais os programadores podem tirar proveito. E se eles não tiverem o pacote que você está procurando, desenvolva um você mesmo !
Você podeusar R e Python em conjunto . Verifique isso se estiver trabalhando em um projeto colaborativo com programadores de R e Python.
❌ Código aberto.
✅ Cria belos relatórios.
❌ Pode parecer fácil de usar, mas tem complexidade oculta.
✅ Ótimo para disputa e manipulação de dados.
❌ Habilidades limitadas para projetos complexos de ciência de dados.
✅ Pode coletar dados de várias fontes.
O Power BI realmente se destaca como um
✅ Código aberto.
❌ Tem uma curva de aprendizado significativa.
✅ Pode criar gráficos, tabelas e resultados organizados.
✅ Tem inúmeras bibliotecas de ciência de dados como TensorFlow, Scikit-learn, NumPy, Pandas, PyTorch, etc.
✅ É uma linguagem de programação multifuncional que faz com que seus esforços de aprendizado cheguem mais longe.
Para trabalhar com Python, você vai querer aprender como configurar um ambiente virtual e provavelmente vai querer escolher uma plataforma de computação como o Jupyter Notebook para realizar seu trabalho.
❌ código aberto.
✅ Cria belos painéis.
❌ Habilidades limitadas de pré-processamento de dados, como limpeza e disputa.
✅ Ótimo para análise de dados.
❌ Habilidades limitadas para projetos complexos de ciência de dados.
✅ Relatórios e painéis são facilmente compartilháveis com outras pessoas.
Nossa pesquisa mostrou que o Python subiu para o topo das opções dadas para ferramentas de ciência de dados. Dada a sua versatilidade, dentro e fora do campo da ciência de dados, isso não foi surpresa. Python é apresentado como uma linguagem de programação fácil de aprender. Vamos ser honestos, se você for um completo iniciante em codificação de computador, não será “ fácil ” no começo, mas com a prática, acabará se tornando uma segunda natureza para você.
Por favor, compartilhe seus pensamentos nos comentários e fique de olho em outras enquetes do HackerNoon para participar.