La science des données a parcouru un long chemin depuis les premiers jours des conférences sur la découverte des connaissances dans les bases de données (KDD) et les très grandes bases de données (VLDB) . Les ingénieurs logiciels des années 1980-90 manipulant des bases de données sont devenus des ingénieurs spécialisés dans les bases de données dans les années 2000 . Pendant ce temps, des poches d'informaticiens dans des laboratoires de recherche plus petits expérimentent l'apprentissage automatique et l'intelligence artificielle . Le big data et l'algorithme intelligent sont entrés en collision lors d'une explosion cambrienne dans les années 2010 , faisant de « Data Scientist: The Sexiest Job of the 21st Century ». Cela nous amène une décennie plus tard, après la pandémie 2022, à poser la question : « Le data scientist est-il toujours le travail le plus sexy du 21e siècle ? ”.
Pardonnez le raccourci, mais cet article est écrit en conjonction avec le Noonies Award 2022. Les HackerNoon's 2002 Noonie Awards célèbrent les rédacteurs techniques partageant leurs idées les meilleures et les plus brillantes sur tout ce qui touche à la technologie.
Une introduction formelle :
Salut, je suis Liling. Le jour, je suis chercheur appliqué chez Amazon et après le travail, je code en open source et j'écris des articles techniques sur le processus du langage naturel et parfois des articles sur la pop-culture du jeu.
C'est une joie et un honneur d'être nominé dans la catégorie Hackernoon Contributor of the Year for Natural Language Processing (NLP) et si vous avez apprécié le contenu NLP ou Machine Translation que j'ai partagé, aidez à casser le bouton de vote à https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing
Pour célébrer la nomination, j'écris cet article dans un format de questions et réponses "Demandez-moi n'importe quoi".
En tant que rédacteur technique, j'aime partager les technologies émergentes en apprentissage automatique et j'ai un faible pour les technologies liées au langage et à la traduction. Pour célébrer la nomination, j'écris cet article dans un format de questions et réponses "Demandez-moi n'importe quoi". En savoir plus sur mes réflexions et opinions sur « Quel genre de scientifique suis-je ? » dans l'industrie technologique dans les sections suivantes.
De nos jours, la description de poste pour les « scientifiques des données » se présente sous différentes formes et relève globalement de ces catégories :
Si vous interrogez quelqu'un sur la différence entre le rôle et les responsabilités des différents titres de poste, vous vous retrouverez très probablement avec une ligne vague qui délimite chacun d'eux.
Si vous interrogez quelqu'un sur la différence entre le rôle et les responsabilités des différents titres de poste, vous vous retrouverez très probablement avec une ligne vague qui délimite chacun d'eux. En réalité, il s'agit généralement d'un périmètre de travail flou qui diffère en fonction des définitions de rôle de l'entreprise et de l'équipe. La principale différence se situe généralement entre les rôles de "Scientifique" et d'"Ingénieur", où le scientifique est généralement censé se concentrer davantage sur la qualité des données et du modèle, tandis que l'ingénieur se concentre davantage sur l'intégrité du modèle et la fiabilité du service.
C'est généralement la responsabilité des « scientifiques ». Dans l'industrie, cela est spécifique aux différentes tâches et applications que l'équipe prend en charge et/ou développe. C'est similaire aux chercheurs universitaires qui construisent un modèle d'apprentissage automatique, mais l'aspect pratique de savoir si le modèle final est utilisable l'emporte généralement sur la nécessité de battre les résultats de pointe dans l'industrie.
C'est généralement la responsabilité des « ingénieurs ». La fiabilité est aujourd'hui essentielle pour toutes les applications d'apprentissage automatique modernes. Il est important de s'assurer que les efforts des scientifiques en matière d'émissions de carbone pour produire le meilleur modèle pour les clients/utilisateurs produisent les performances attendues en production.
La déclaration d'un scientifique « ça marche sur mon ordinateur portable » est inacceptable dans l'industrie et les ingénieurs contribuent à faire de « ça marche, n'importe où » un rêve devenu réalité.
Construire et maintenir le cadre pour automatiser la formation et le déploiement des modèles
S'assurer que les fonctionnalités/améliorations apportées dans les projets expérimentaux sont disponibles dans les modèles de production
Améliorations progressives pour automatiser les configurations expérimentales afin de réduire/éliminer les étapes manuelles lors de la mise en production du modèle des scientifiques.
De nos jours, ces responsabilités d'ingénierie sont parfois connues sous le nom d'opérations d'apprentissage automatique (MLOps), Chip Huyen a un bon article de blog qui donne un aperçu des MLOps pour les aspirants ingénieurs ML/Data/Research.
Il existe de nombreuses autres définitions de ce que font l'apprentissage automatique, les données, la recherche appliquée, les scientifiques/ingénieurs, mais ce qui précède est tiré de mon expérience personnelle dans l'industrie.
Ça dépend! Et comme indiqué précédemment, cela varie d'une entreprise à l'autre et tout le monde devrait toujours demander au responsable du recrutement quelles sont les responsabilités attendues lors du processus de candidature.
Un bon scientifique devrait être capable d'effectuer certaines tâches d'ingénierie. Inversement, un bon ingénieur devrait être capable de créer des modèles d'apprentissage automatique.
Personnellement, en tant que scientifique, voici mes conseils que je donne aux aspirants/nouveaux scientifiques :
Et une note finale que j'essaie toujours de me rappeler,
P/S : Un ingénieur pourrait former un meilleur modèle qu'un scientifique.
En ce qui concerne les rôles et les responsabilités, ils sont similaires, mais en pratique, certaines entreprises peuvent avoir une démarcation claire entre les différents postes de scientifiques, donc toujours en tant que personnel des ressources humaines (RH) ou responsable du recrutement s'il est possible de partager les « lignes directrices sur les rôles » spécifiques au poste auquel vous postulez et particulièrement important de comprendre les attentes de votre rôle une fois que vous avez rejoint l'entreprise et l'équipe .
Je suis personnellement un " pratique " dans la plupart des cas, mais quand il s'agit de "la pâte", https://www.levels.fyi/ et demander à des amis/seniors dans les entreprises sont votre meilleur pari pour en savoir plus sur l'entreprise et leur rémunération.
Mon avis personnel :
"Ne le faites pas pour l'argent" est surestimé. Faites-le par amour de le faire. J'aime regarder les chiffres et les données linguistiques, donc la PNL. Mais n'oubliez pas d'être suffisamment payé pour le faire =)
J'ai discuté des différences entre les scientifiques et les ingénieurs dans le domaine de l'apprentissage automatique et maintenant je vais essayer de répondre à une question pressante que presque tous les scientifiques poseraient :
C'est généralement la pire forme de questions StackOverflow selon le guide " Comment poser une bonne question ", mais je pense que c'est quelque chose auquel la communauté devrait essayer de répondre chaque fois que nous le pouvons.
Mon avis personnel :
Il n'y a pas de « mauvaises » questions ou « besoin de se concentrer davantage » sur ces questions pratiques. Mais cela attire inévitablement parfois des publicités malveillantes sur les produits/technologies.
Revue de littérature
Savoir quels sont les ensembles de données disponibles et ce qu'ils contiennent (bruit, bizarreries, etc.)
Trouver sur quelle métrique d'évaluation la tâche X est généralement évaluée
Suivez la plus ancienne citation pertinente de la tâche , lisez cet article
Trouvez l'article le plus cité pour la tâche , utilisez-le comme référence
Définissez vos critères de réussite pour la tâche de manière industrielle (il se peut que ce ne soit pas la métrique d'évaluation standard pour la tâche)
Essayez de reproduire ou de réimplémenter la ligne de base
Communiquez votre modèle/bibliothèques aux ingénieurs . Votre ingénieur peut-il le produire?
La ligne de base a-t-elle répondu aux critères de réussite ? Demandez à l'entreprise/partie prenante du projet si c'est suffisant
Construisez-le, testez-le, cassez-le, répétez !
D'après mon expérience personnelle, l'outil/modèle qui entre dans la main de vos clients dépend généralement fortement des étapes 6 à 9 de l'approche décrite ci-dessus.
En ce moment, je passe mon temps libre à apprendre Huggingface 🤗 et pas seulement à utiliser les différents composants de la bibliothèque, mais plus encore à comprendre quelles fonctionnalités en font un succès et quel est le facteur X qui l'a fait gagner du terrain dans la communauté de l'apprentissage automatique.
Et la prochaine chose dans laquelle j'investirais mon temps est le ML quantique, si j'ai encore plus de temps =)
J'espère que les questions et réponses ci-dessus vous donneront un aperçu de " quel genre de scientifique je suis ". Et s'il y a d'autres questions brûlantes que vous souhaitez poser, n'hésitez pas à laisser le commentaire sous la publication.
Enfin, je tiens à remercier chaleureusement la communauté HackerNoon, le personnel et les sponsors pour la nomination aux Noonie Awards et si vous aimez cet article, aidez à casser le bouton de vote sur https://www.noonies.tech/2022/programming/2022- hackernoon-contributeur-de-l'année-traitement-du-langage-naturel