La science des données a parcouru un long chemin depuis les premiers jours des conférences sur (KDD) et . Les ingénieurs logiciels des années 1980-90 manipulant des bases de données sont devenus . Pendant ce temps, des poches d'informaticiens dans des laboratoires de recherche plus petits expérimentent . Le big data et l'algorithme intelligent sont entrés en collision lors d'une , faisant de « ». Cela nous amène une décennie plus tard, après la pandémie 2022, à poser la question : « ”. la découverte des connaissances dans les bases de données les très grandes bases de données (VLDB) des ingénieurs spécialisés dans les bases de données dans les années 2000 l'apprentissage automatique et l'intelligence artificielle explosion cambrienne dans les années 2010 Data Scientist: The Sexiest Job of the 21st Century Le data scientist est-il toujours le travail le plus sexy du 21e siècle ? Pourquoi écrivez-vous cet article ? Pardonnez le raccourci, mais cet article est écrit en conjonction avec le Noonies Award 2022. Les HackerNoon's 2002 Noonie Awards célèbrent les rédacteurs techniques partageant leurs idées les meilleures et les plus brillantes sur tout ce qui touche à la technologie. Une introduction formelle : Salut, je suis Liling. Le jour, je suis chercheur appliqué chez Amazon et après le travail, je code en open source et j'écris des articles techniques sur le processus du langage naturel et parfois des articles sur la pop-culture du jeu. C'est une joie et un honneur d'être nominé dans la (NLP) et si vous avez apprécié le contenu NLP ou Machine Translation que j'ai partagé, aidez à à catégorie Hackernoon Contributor of the Year for Natural Language Processing casser le bouton de vote https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing Pour célébrer la nomination, j'écris cet article dans un format de questions et réponses "Demandez-moi n'importe quoi". En tant que rédacteur technique, j'aime partager les technologies émergentes en apprentissage automatique et j'ai un faible pour les technologies liées au langage et à la traduction. Pour célébrer la nomination, j'écris cet article dans un format de questions et réponses "Demandez-moi n'importe quoi". En savoir plus sur mes réflexions et opinions sur « » dans l'industrie technologique dans les sections suivantes. Quel genre de scientifique suis-je ? Retour sur le "job le plus sexy du 21ème siècle" De nos jours, la description de poste pour les « » se présente sous différentes formes et relève globalement de ces catégories : scientifiques des données Scientifique des données Chercheur Scientifique appliqué Ingénieur de données Ingénieur de recherche Ingénieur en apprentissage automatique (ML) Si vous interrogez quelqu'un sur la différence entre le rôle et les responsabilités des différents titres de poste, vous vous retrouverez très probablement avec une ligne vague qui délimite chacun d'eux. Si vous interrogez quelqu'un sur la différence entre le rôle et les responsabilités des différents titres de poste, vous vous retrouverez très probablement avec une ligne vague qui délimite chacun d'eux. En réalité, il s'agit généralement d'un périmètre de travail flou qui diffère en fonction des définitions de rôle de l'entreprise et de l'équipe. La principale différence se situe généralement entre les rôles de "Scientifique" et d'"Ingénieur", où le scientifique est généralement censé se concentrer davantage sur la qualité des données et du modèle, tandis que l'ingénieur se concentre davantage sur l'intégrité du modèle et la fiabilité du service. Q : Quelle qualité de données ou de modèle ? C'est généralement la responsabilité des « ». Dans l'industrie, cela est spécifique aux différentes tâches et applications que l'équipe prend en charge et/ou développe. C'est similaire aux chercheurs universitaires qui construisent un modèle d'apprentissage automatique, mais l'aspect pratique de savoir si le modèle final est utilisable l'emporte généralement sur la nécessité de battre les résultats de pointe dans l'industrie. scientifiques Les tâches de qualité des données impliquent généralement : Quelles données open source pouvez-vous utiliser pour entraîner/améliorer le modèle ? À qui appartiennent les sources de données internes que vous pouvez utiliser pour entraîner/améliorer le modèle ? Comment extraire, transformer, stocker et charger les données pour les adapter au modèle ? Comment améliorer la qualité et la taille des données ? Les tâches de qualité des modèles impliquent généralement : Trouver le bon algorithme ou l'architecture réseau à utiliser pour résoudre la tâche Définir/affiner le cadre d'évaluation utilisé pour évaluer la tâche/l'application Améliorer les performances du modèle sur la base d'une métrique / d'un cadre d'évaluation défini Optimiser le compromis vitesse et performance de l'algorithme pour rendre le modèle utilisable en production Q : Qu'est-ce que l'intégrité du modèle et la fiabilité du service ? C'est généralement la responsabilité des « ». La fiabilité est aujourd'hui essentielle pour toutes les applications d'apprentissage automatique modernes. Il est important de s'assurer que les efforts des scientifiques en matière d'émissions de carbone pour produire le meilleur modèle pour les clients/utilisateurs produisent les performances attendues en production. ingénieurs La déclaration d'un scientifique « » est inacceptable dans l'industrie et les ingénieurs contribuent à faire de « » un rêve devenu réalité. ça marche sur mon ordinateur portable ça marche, n'importe où Les tâches d'intégrité du modèle impliquent généralement : Construire et maintenir le cadre pour automatiser la formation et le déploiement des modèles S'assurer que les fonctionnalités/améliorations apportées dans les projets expérimentaux sont disponibles dans les modèles de production Améliorations progressives pour automatiser les configurations expérimentales afin de réduire/éliminer les étapes manuelles lors de la mise en production du modèle des scientifiques. Les tâches de fiabilité du service impliquent généralement : Configuration d'alertes et surveillance de l'utilisation des applications par les utilisateurs et si/quand le modèle d'apprentissage automatique échoue/casse Spécifier et limiter l'accès des utilisateurs au modèle pour se conformer aux réglementations internes/nationales/régionales Rendre le service accessible à un nombre croissant d'utilisateurs et de charge De nos jours, ces responsabilités d'ingénierie sont parfois connues sous le nom d'opérations d'apprentissage automatique (MLOps), Chip Huyen a un pour les aspirants ingénieurs ML/Data/Research. bon article de blog qui donne un aperçu des MLOps Il existe de nombreuses autres définitions de ce que font l'apprentissage automatique, les données, la recherche appliquée, les scientifiques/ingénieurs, mais ce qui précède est tiré de mon expérience personnelle dans l'industrie. Q : Dois-je devenir Scientifique ou Ingénieur ? Ça dépend! Et comme indiqué précédemment, cela varie d'une entreprise à l'autre et tout le monde devrait toujours demander au responsable du recrutement quelles sont les responsabilités attendues lors du processus de candidature. Un bon scientifique devrait être capable d'effectuer certaines tâches d'ingénierie. Inversement, un bon ingénieur devrait être capable de créer des modèles d'apprentissage automatique. Personnellement, en tant que scientifique, voici mes conseils que je donne aux aspirants/nouveaux scientifiques : Connaître certaines aides en ingénierie backend/frontend Savoir ce qui est possible, ce qui est facile, ce qui est difficile pour les ingénieurs Apprendre des ingénieurs (dockers, bases de données, cloud, conception/développement d'applications) Et laissez les ingénieurs apprendre ce que vous faites Et une note finale que j'essaie toujours de me rappeler, P/S : Un ingénieur pourrait former un meilleur modèle qu'un scientifique. Q : Parlons pratique, y a-t-il une différence entre Data, Research ou Applied Scientist ? En ce qui concerne les rôles et les responsabilités, ils sont similaires, mais en pratique, certaines entreprises peuvent avoir une démarcation claire entre les différents postes de scientifiques, donc toujours en tant que personnel des ressources humaines (RH) ou responsable du recrutement s'il est possible de partager les « » spécifiques au poste auquel vous postulez et . lignes directrices sur les rôles particulièrement important de comprendre les attentes de votre rôle une fois que vous avez rejoint l'entreprise et l'équipe Q : Oui, c'est tout beau et bon à propos de la technologie, de la carrière, dites-m'en plus sur la pâte (différence $$$ en termes pratiques) pour les données, la recherche ou les scientifiques appliqués ! Je suis personnellement un " " dans la plupart des cas, mais quand il s'agit de "la pâte", et demander à des amis/seniors dans les entreprises sont votre meilleur pari pour en savoir plus sur l'entreprise et leur rémunération. pratique https://www.levels.fyi/ Mon avis personnel : "Ne le faites pas pour l'argent" est surestimé. Faites-le par amour de le faire. J'aime regarder les chiffres et les données linguistiques, donc la PNL. Mais n'oubliez pas d'être suffisamment payé pour le faire =) Après la discussion sur la carrière, maintenant la partie technique ! J'ai discuté des différences entre les scientifiques et les ingénieurs dans le domaine de l'apprentissage automatique et maintenant je vais essayer de répondre à une question pressante que presque tous les scientifiques poseraient : Q : J'ai un problème X, quel outil/méthode Y pour le résoudre ? C'est généralement la pire forme de questions StackOverflow selon le guide " ", mais je pense que c'est quelque chose auquel la communauté devrait essayer de répondre chaque fois que nous le pouvons. Comment poser une bonne question Mon avis personnel : Il n'y a pas de « mauvaises » questions ou « besoin de se concentrer davantage » sur ces questions pratiques. Mais cela attire inévitablement parfois des publicités malveillantes sur les produits/technologies. Voici mon approche en 10 étapes pour répondre au problème X, approche Y, en tant que « », … scientifique Revue de littérature Plus vous lisez, plus vous avez d'outils à portée de main Mais limitez votre temps pour éviter les terriers de lapin, essayez peut-être le « » =) Paper-Blitzing et ce qu'ils contiennent (bruit, bizarreries, etc.) Savoir quels sont les ensembles de données disponibles Trouver sur quelle métrique d'évaluation la tâche X est généralement évaluée , lisez cet article Suivez la plus ancienne citation pertinente de la tâche , utilisez-le comme référence Trouvez l'article le plus cité pour la tâche Dans la mesure du possible, recherchez les ensembles de données dans cet article le plus cité et le dernier article le plus brillant (il se peut que ce ne soit pas la métrique d'évaluation standard pour la tâche) Définissez vos critères de réussite pour la tâche de manière industrielle Essayez de reproduire ou de réimplémenter la ligne de base . Votre ingénieur peut-il le produire? Communiquez votre modèle/bibliothèques aux ingénieurs Demandez à l'entreprise/partie prenante du projet si c'est suffisant La ligne de base a-t-elle répondu aux critères de réussite ? Construisez-le, testez-le, cassez-le, répétez ! Q : Attendez une minute, cela signifie-t-il qu'il n'y a pas « un seul véritable algorithme/outil Y » que je puisse apprendre pour résoudre la tâche X ? Oui, il n'y en a pas. D'après mon expérience personnelle, l'outil/modèle qui entre dans la main de vos clients dépend généralement fortement des étapes 6 à 9 de l'approche décrite ci-dessus. Q : Quelle est la prochaine étape en matière d'apprentissage automatique et de PNL (ce qui vous passionne personnellement) ? En ce moment, je passe mon temps libre à apprendre 🤗 et pas seulement à utiliser les différents composants de la bibliothèque, mais plus encore à comprendre dans la communauté de l'apprentissage automatique. Huggingface quelles fonctionnalités en font un succès et quel est le facteur X qui l'a fait gagner du terrain Et la prochaine chose dans laquelle j'investirais mon temps est le ML quantique, si j'ai encore plus de temps =) https://developer.nvidia.com/cuquantum-sdk https://www.nature.com/articles/s41467-022-32550-3 https://github.com/XanaduAI/pennylane https://medium.com/xanaduai/training-quantum-neural-networks-with-pennylane-pytorch-and-tensorflow-c669108118cc Au revoir et merci pour le poisson ! J'espère que les questions et réponses ci-dessus vous donneront un aperçu de " ". Et s'il y a d'autres questions brûlantes que vous souhaitez poser, n'hésitez pas à laisser le commentaire sous la publication. quel genre de scientifique je suis Enfin, je tiens à remercier chaleureusement la communauté HackerNoon, le personnel et les sponsors pour la nomination aux Noonie Awards et si vous aimez cet article, aidez à casser le bouton de vote sur https://www.noonies.tech/2022/programming/2022- hackernoon-contributeur-de-l'année-traitement-du-langage-naturel