A imagem principal foi gerada com Midjourney Diffusion com o prompt “A python prevalece, digital fantasy art”. Sobre ciência de dados A ciência de dados é onde estatísticas, programação e comunicação se cruzam. Um cientista de dados faz uma pergunta e usa dados para respondê-la por meio de mecanismos de complexidade variada. Eles têm o conhecimento e o kit de ferramentas para saber quais testes e métodos aplicar a cada tipo de dados. E eles têm a capacidade de extrair respostas dos dados e retransmitir essas respostas em uma forma geral de comunicação cotidiana. Os dados podem variar de simples a altamente complexos. Pode ser “limpo” e pode ser “bagunçado”. Às vezes temos uma pergunta, mas não temos os dados. Um cientista e/ou analista de dados deve transformar dados confusos em dados limpos usando ferramentas especializadas. Eles também podem desenvolver ' ' programas projetados para buscar dados se não tiverem o que precisam para responder à pergunta. Depois que os dados são obtidos e estão em uma forma utilizável, eles são enviados para testes e modelos estatísticos por meio de programas e ferramentas como Python, RStudio etc. Mas quais ferramentas são as melhores? raspagem Leitores do HackerNoon do HackerNoon (10/4/2023 a 16/4/2023) foram usadas para avaliar onde nossos leitores se enquadram neste tópico. A comunidade HackerNoon foi questionada sobre qual é sua ferramenta de ciência de dados de trabalho, dadas algumas das opções mais populares e 374 pessoas responderam. Os resultados podem ser vistos na imagem abaixo: As enquetes semanais Mais de 50% dos leitores do HackerNoon, que são em grande parte da comunidade de tecnologia, escolheram o Python como sua principal ferramenta de ciência de dados. Isso não é tão surpreendente. é de código aberto, o que o torna acessível a todos 🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃 [ ] Pitão 18% selecionado como sua ferramenta de ciência de dados de primeira escolha. [ ] excel foi selecionado apenas por 9% dos entrevistados**.** [ ] O Power BI Também uma ferramenta de código aberto, levou apenas 9% dos votos. [ ] RStudioGenericName Finalmente, apenas 5% escolheram como sua principal ferramenta para ciência de dados [ ] Quadro Ferramentas Por que existem tantas ferramentas para escolher? vem ganhando complexidade ao longo do tempo, então, naturalmente, a escolha das ferramentas também. Existem tantos fluxos de ciência de dados que cada indivíduo deve decidir por si mesmo qual ferramenta é a certa para eles. E, realisticamente, você usará várias ferramentas em conjunto. Este campo Vamos ver alguns destaques de cada ferramenta da enquete. Claro, existem mais ferramentas não discutidas aqui 😆 excel ❌ Código aberto. ✅ É amigável ao estilo da Microsoft! ❌ Não é avançado o suficiente para projetos complexos de ciência de dados. ✅ Gera tabelas e gráficos elegantes que podem ser facilmente exportados. Estamos todos familiarizados com o Excel. Claro, é ótimo para tarefas diárias, como manipulação de dados, limpeza e visualizações, mas não é suficiente para projetos mais avançados. Você pode ser habilidoso com a criação de painéis e relatórios e pode até configurar APIs especializadas no Excel. Rstudio ✅ Código aberto. ❌ Tem uma curva de aprendizado significativa. ✅ Pode gerar gráficos, tabelas e resultados organizados e personalizáveis. ❌ Pode ser limitado em algumas das ferramentas de aprendizado de máquina mais avançadas. ✅ Especializado em problemas de base estatística. Um programa de código aberto versátil que é excelente para análise de dados e ciência de dados é , que agora está usando o nome novo e brilhante . RStudioGenericName Posicionar ** \ Semelhante ao Python, a versatilidade da linguagem de programação R é vasta, permitindo que os cientistas de dados executem tarefas complexas usando várias abordagens. Bibliotecas e pacotes estão sendo constantemente desenvolvidos para assumir tarefas especializadas das quais os programadores podem tirar proveito. E se eles não tiverem o pacote que você está procurando, ! “Nossa missão é criar software de código aberto para ciência de dados, pesquisa científica e comunicação técnica. Fazemos isso para potencializar a produção e o consumo de conhecimento por todos, independentemente dos meios econômicos”. -- Positivo desenvolva um você mesmo Você pode . Verifique isso se estiver trabalhando em um projeto colaborativo com programadores de R e Python. usar R e Python em conjunto Power BI ❌ Código aberto. ✅ Cria belos relatórios. ❌ Pode parecer fácil de usar, mas tem complexidade oculta. ✅ Ótimo para disputa e manipulação de dados. ❌ Habilidades limitadas para projetos complexos de ciência de dados. ✅ Pode coletar dados de várias fontes. O Power BI realmente se destaca como um em vez de uma ferramenta laboriosa para ciência de dados. Ele detém a capacidade de executar manipulações de dados especializadas por meio de operações codificadas personalizadas, como expressões regulares, etc. Mas é provável que, se você estiver trabalhando em um projeto complexo de ciência de dados, use o Power BI no estágio final do projeto de uma ferramenta de apresentação. ferramenta de visualização de dados e relatórios Pitão ✅ Código aberto. ❌ Tem uma curva de aprendizado significativa. ✅ Pode criar gráficos, tabelas e resultados organizados. ✅ Tem inúmeras bibliotecas de ciência de dados como TensorFlow, Scikit-learn, NumPy, Pandas, PyTorch, etc. ✅ É uma linguagem de programação multifuncional que faz com que seus esforços de aprendizado cheguem mais longe. é uma linguagem de programação multifuncional orientada a objetos. É conhecida por ser uma linguagem de programação fácil de aprender e versátil. Devido à sua versatilidade, existe uma enorme comunidade de programadores, pelo que os recursos educativos são intermináveis. Há uma infinidade de que estão prontos para usar. Pitão bibliotecas de ciência de dados Para trabalhar com Python, você vai querer aprender como configurar um e provavelmente vai querer escolher uma plataforma de computação como o para realizar seu trabalho. ambiente virtual Jupyter Notebook Quadro ❌ código aberto. ✅ Cria belos painéis. ❌ Habilidades limitadas de pré-processamento de dados, como limpeza e disputa. ✅ Ótimo para análise de dados. ❌ Habilidades limitadas para projetos complexos de ciência de dados. ✅ Relatórios e painéis são facilmente compartilháveis com outras pessoas. é um excelente software de análise e visualização de dados que é frequentemente usado em equipes maiores devido ao seu custo. Ele pode criar painéis de estilo de apresentação bonitos e intuitivos que podem destacar vários aspectos de seus dados. No entanto, certamente não é uma ferramenta laboriosa, pois é mais especializada nos estágios de geração de relatórios e não nos estágios inicial e intermediário de um projeto de dados. Quadro Pensamentos finais Nossa pesquisa mostrou que o Python subiu para o topo das opções dadas para ferramentas de ciência de dados. Dada a sua versatilidade, dentro e fora do campo da ciência de dados, isso não foi surpresa. Python é apresentado como uma linguagem de programação fácil de aprender. Vamos ser honestos, se você for um completo iniciante em codificação de computador, não será “ ” no começo, mas com a prática, acabará se tornando uma segunda natureza para você. fácil Por favor, compartilhe seus pensamentos nos comentários e fique de olho em outras para participar. enquetes do HackerNoon