A ciência de dados percorreu um longo caminho desde os primeiros dias das conferências (KDD) e . Os engenheiros de software dos anos 1980-90 que lidavam com bancos de dados evoluíram para . Enquanto isso, grupos de cientistas da computação em laboratórios de pesquisa menores experimentam . O big data e o algoritmo inteligente colidiram em uma , criando “ ”. Isso nos leva a uma década depois, pós-pandemia de 2022, fazendo a pergunta: “ ”. Knowledge Discovery in Databases Very Large Data Bases (VLDB) engenheiros de banco de dados especializados nos anos 2000 aprendizado de máquina e inteligência artificial explosão cambriana na década de 2010 Cientista de Dados: O Trabalho Mais Sexy do Século XXI O cientista de dados ainda é o trabalho mais sexy do século XXI? Por que você está escrevendo este artigo? Perdoe o atalho, mas este artigo foi escrito em conjunto com o Prêmio Noonies de 2022. O Noonie Awards 2002 do HackerNoon celebra os escritores técnicos que compartilham seus melhores e mais brilhantes insights em todas as coisas de tecnologia. Uma introdução formal: Olá, sou a Liling. Durante o dia, sou um cientista aplicado na Amazon e, depois do trabalho, codifico código aberto e escrevo artigos de tecnologia sobre processo de linguagem natural e, às vezes, artigos sobre cultura pop de jogos. É uma alegria e uma honra ser indicado na (NLP) e se você gostou do conteúdo de NLP ou Tradução Automática que venho compartilhando, ajude em categoria de Colaborador do Ano do Hackernoon para Processamento de Linguagem Natural a esmagar o botão de votação https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing Para comemorar a indicação, estou escrevendo este artigo no formato de perguntas e respostas do tipo “Pergunte-me qualquer coisa”. Como redator de tecnologia, adoro compartilhar as tecnologias emergentes em aprendizado de máquina e tenho um ponto fraco particular em tecnologias relacionadas a linguagem e tradução. Para comemorar a indicação, estou escrevendo este artigo no formato de perguntas e respostas do tipo “Pergunte-me qualquer coisa”. Saiba mais sobre meus pensamentos e opiniões sobre “ ” na indústria de tecnologia nas seções a seguir. que tipo de cientista eu sou? De volta ao “Trabalho mais sexy do século 21” Hoje em dia, a descrição do trabalho para “ ” vem em diferentes formas e cai amplamente nessas categorias: cientistas de dados cientista de dados Pesquisa científica Cientista Aplicado Engenheiro de dados Engenheiro de pesquisa Engenheiro de Machine Learning (ML) Se você perguntar a alguém sobre a diferença entre o papel e as responsabilidades dos diferentes cargos, provavelmente terminará com uma linha vaga que delineou cada um deles. Se você perguntar a alguém sobre a diferença entre o papel e as responsabilidades dos diferentes cargos, provavelmente terminará com uma linha vaga que delineou cada um deles. Na realidade, geralmente é um escopo de trabalho confuso e sobreposto que difere com base nas definições de função da empresa e da equipe. A principal diferença geralmente vem entre as funções de “Cientista” e “Engenheiro”, onde geralmente se espera que o cientista se concentre mais nos dados e no lado da qualidade do modelo, enquanto o engenheiro se concentra mais na integridade do modelo e na confiabilidade do serviço. P: Quais dados ou qualidade do modelo? Isso geralmente é responsabilidade dos “ ”. Na indústria, isso é específico para as diferentes tarefas e aplicações que a equipe suporta e/ou desenvolve. É semelhante aos pesquisadores acadêmicos que constroem o modelo de aprendizado de máquina, mas a praticidade de saber se o modelo final é utilizável geralmente supera a necessidade de superar os resultados de ponta do setor. cientistas As tarefas de qualidade de dados geralmente envolvem: Quais dados de código aberto você pode usar para treinar/melhorar o modelo? Quem possui fontes de dados internas que você pode usar para treinar/melhorar o modelo? Como extrair, transformar, armazenar e carregar os dados para caber no modelo? Como melhorar a qualidade e o tamanho dos dados? As tarefas de qualidade do modelo geralmente envolvem: Encontrar o algoritmo certo ou a arquitetura de rede a ser usada para resolver a tarefa Definir/refinar o uso da estrutura de avaliação para avaliar a tarefa/aplicativo Melhorar o desempenho do modelo com base em uma métrica/estrutura de avaliação definida Otimizando a compensação de velocidade e desempenho para o algoritmo para tornar o modelo utilizável na produção P: O que é integridade do modelo e confiabilidade do serviço? Isso geralmente é responsabilidade dos “ ”. A confiabilidade é fundamental para qualquer aplicativo moderno de aprendizado de máquina hoje. É importante certificar-se de que os esforços de emissões de carbono dos cientistas para produzir o melhor modelo para os clientes/usuários produzam o desempenho esperado na produção. engenheiros A declaração de um cientista “ ” é inaceitável na indústria e os engenheiros ajudam a tornar “ ” um sonho tornado realidade. funciona no meu laptop funciona em qualquer lugar As tarefas de integridade do modelo geralmente envolvem: Construir e manter a estrutura para automatizar o treinamento e a implantação do modelo Garantir que recursos/melhorias feitas em projetos experimentais estejam disponíveis em modelos de produção Melhorias incrementais para automatizar as configurações experimentais para reduzir/eliminar as etapas manuais ao trazer o modelo dos cientistas para a produção. As tarefas de confiabilidade do serviço geralmente envolvem: Configurar alertas e monitorar o uso de aplicativos dos usuários e se/quando o modelo de aprendizado de máquina falhar/interromper Especificar e limitar o acesso dos usuários ao modelo para cumprir os regulamentos internos/nacionais/regionais Tornar o serviço acessível a usuários e cargas crescentes Nos dias modernos, às vezes essas responsabilidades de engenharia são conhecidas como Operações de aprendizado de máquina (MLOps). Chip Huyen tem uma para aspirantes a engenheiros de ML/Dados/Pesquisa. boa postagem no blog que fornece uma visão geral sobre MLOps Existem muitas outras definições do que cientistas/engenheiros de aprendizado de máquina, dados, aplicados e pesquisadores fazem, mas o que foi dito acima é de minha experiência pessoal no setor. P: Devo escolher Cientista ou Engenheiro? Depende! E como discutido anteriormente, varia de empresa para equipe e todos devem sempre perguntar ao gerente de contratação sobre as responsabilidades esperadas durante o processo de candidatura. Um bom cientista deve ser capaz de realizar algumas tarefas de engenharia. Vice-versa, um bom engenheiro deve ser capaz de construir alguns modelos de aprendizado de máquina. Pessoalmente, como cientista, estes são os conselhos que dou aos aspirantes/novos cientistas: Conhecer um pouco de engenharia de back-end/front-end ajuda Saiba o que é possível, o que é fácil, o que é difícil para os engenheiros Aprenda com engenheiros (dockers, bancos de dados, nuvem, design/desenvolvimento de aplicativos) E deixe os engenheiros aprenderem o que você faz E uma nota final que sempre tento me lembrar, P/S: Um engenheiro pode treinar um modelo melhor do que um cientista. P: Vamos falar de forma prática, existe uma diferença entre Dados, Pesquisa ou Cientista Aplicado? As funções e responsabilidades são semelhantes, mas em termos práticos algumas empresas podem ter uma demarcação clara entre as diferentes posições de cientistas, portanto, sempre como o pessoal de recursos humanos (RH) ou gerente de contratação, se for possível compartilhar as " " específicas para o posição para a qual você está se candidatando e . diretrizes de função especialmente importante entender as expectativas de sua função depois de ingressar na empresa e na equipe P: Sim, isso é muito bom sobre tecnologia, carreira, conte-me mais sobre a massa ($$$ diferença em termos práticos) para dados, pesquisa ou cientista aplicado! Pessoalmente, sou um “ ” na maioria dos casos, mas quando se trata de “a massa”, e perguntar a amigos/idosos nas empresas é sua melhor aposta para saber mais sobre a empresa e suas compensações. prático https://www.levels.fyi/ Minha opinião pessoal: “Não faça isso pelo dinheiro” é superestimado. Faça pelo amor de fazer. Eu gosto de olhar para números e dados de linguagem, portanto, PNL. Mas lembre-se de ser pago o suficiente para fazer isso =) Da discussão de carreira, agora a parte técnica! Discuti as diferenças entre cientistas e engenheiros no campo de aprendizado de máquina e agora tentarei responder a uma pergunta urgente que quase todos os cientistas fariam: P: Tenho um problema X, qual ferramenta/método Y para resolvê-lo? Esta é geralmente a pior forma de perguntas do StackOverflow de acordo com o guia “ ”, mas acho que é algo que a comunidade deve tentar responder sempre que puder. Como fazer uma boa pergunta Minha opinião pessoal: Não há pergunta “ruim” ou “precisa de mais foco” para essas questões práticas. Mas, às vezes, inevitavelmente atrai publicidade maliciosa de produto/tecnologia. Aqui está minha abordagem de 10 passos para responder ao problema X, abordagem Y, como um “ ”, … cientista Revisão da literatura Quanto mais você lê, mais ferramentas você tem em mãos Mas limite seu tempo para evitar buracos de coelho, talvez tente “ ” =) Paper-Blitzing e o que há neles (ruído, peculiaridades, etc.) Saiba quais são os conjuntos de dados disponíveis Encontre em qual métrica de avaliação a tarefa X geralmente é avaliada , leia o artigo Rastreie a citação relevante mais antiga da tarefa , use-o como sua linha de base Encontre o artigo mais citado para a tarefa Sempre que possível, procure os conjuntos de dados no artigo mais citado e no último artigo mais brilhante (pode não ser a métrica de avaliação padrão para a tarefa) Defina seus critérios de sucesso para a tarefa industrialmente Tente replicar ou reimplementar a linha de base . Seu engenheiro pode produzi-lo? Comunique seu modelo/bibliotecas aos engenheiros Pergunte à parte interessada do negócio/projeto se é suficiente A linha de base atendeu aos critérios de sucesso? Construa, teste, quebre, repita! P: Espere um minuto, isso significa que não há “um verdadeiro algoritmo/ferramenta Y” que eu possa aprender para resolver a tarefa X? Sim, não há. Por experiência pessoal, a ferramenta/modelo que chega às mãos de seus clientes geralmente depende muito da Etapa 6 a 9 da abordagem descrita acima. P: O que vem a seguir em Aprendizado de Máquina e PNL (que o deixa pessoalmente empolgado)? No momento, estou gastando meu tempo livre aprendendo sobre 🤗 e não apenas sobre como usar os diferentes componentes da biblioteca, mas mais ainda para entender na comunidade de aprendizado de máquina. o Huggingface quais recursos o tornam um sucesso e qual é o fator X que o fez ganhar força E a próxima coisa em que eu investiria meu tempo é ML quântico, se eu tiver ainda mais tempo =) https://developer.nvidia.com/cuquantum-sdk https://www.nature.com/articles/s41467-022-32550-3 https://github.com/XanaduAI/pennylane https://medium.com/xanaduai/training-quantum-neural-networks-with-pennylane-pytorch-and-tensorflow-c669108118cc Adeus e obrigado pelo peixe! Espero que as perguntas e respostas acima lhe dêem alguns insights sobre “ ”. E se houver mais perguntas urgentes que você queira fazer, sinta-se à vontade para deixar o comentário abaixo da postagem. que tipo de cientista eu sou Por fim, quero agradecer imensamente à comunidade, equipes e patrocinadores do HackerNoon pela indicação ao Noonie Awards e, se você gostar deste artigo, ajude em a esmagar o botão de votação https://www.noonies.tech/2022/programming/2022- hackernoon-colaborador-do-ano-processamento-de-linguagem-natural