1,114 lectures

Quel genre de scientifique êtes-vous ?

par Liling Tan8m2022/08/29

Trop long; Pour lire

Quel genre de scientifique êtes-vous ? En tant que rédacteur technique, j'aime partager les technologies émergentes en apprentissage automatique et j'ai un faible pour les technologies liées au langage et à la traduction. Pour célébrer la nomination, j'écris cet article dans un format de questions et réponses "Demandez-moi n'importe quoi".

featured image - Quel genre de scientifique êtes-vous ?

La science des données a parcouru un long chemin depuis les premiers jours des conférences sur la découverte des connaissances dans les bases de données (KDD) et les très grandes bases de données (VLDB) . Les ingénieurs logiciels des années 1980-90 manipulant des bases de données sont devenus des ingénieurs spécialisés dans les bases de données dans les années 2000 . Pendant ce temps, des poches d'informaticiens dans des laboratoires de recherche plus petits expérimentent l'apprentissage automatique et l'intelligence artificielle . Le big data et l'algorithme intelligent sont entrés en collision lors d'une explosion cambrienne dans les années 2010 , faisant de « Data Scientist: The Sexiest Job of the 21st Century ». Cela nous amène une décennie plus tard, après la pandémie 2022, à poser la question : « Le data scientist est-il toujours le travail le plus sexy du 21e siècle ? ”.

Pourquoi écrivez-vous cet article ?

Pardonnez le raccourci, mais cet article est écrit en conjonction avec le Noonies Award 2022. Les HackerNoon's 2002 Noonie Awards célèbrent les rédacteurs techniques partageant leurs idées les meilleures et les plus brillantes sur tout ce qui touche à la technologie.

Une introduction formelle :

Salut, je suis Liling. Le jour, je suis chercheur appliqué chez Amazon et après le travail, je code en open source et j'écris des articles techniques sur le processus du langage naturel et parfois des articles sur la pop-culture du jeu.

C'est une joie et un honneur d'être nominé dans la catégorie Hackernoon Contributor of the Year for Natural Language Processing (NLP) et si vous avez apprécié le contenu NLP ou Machine Translation que j'ai partagé, aidez à casser le bouton de vote à https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing

Pour célébrer la nomination, j'écris cet article dans un format de questions et réponses "Demandez-moi n'importe quoi".

En tant que rédacteur technique, j'aime partager les technologies émergentes en apprentissage automatique et j'ai un faible pour les technologies liées au langage et à la traduction. Pour célébrer la nomination, j'écris cet article dans un format de questions et réponses "Demandez-moi n'importe quoi". En savoir plus sur mes réflexions et opinions sur « Quel genre de scientifique suis-je ? » dans l'industrie technologique dans les sections suivantes.

Retour sur le "job le plus sexy du 21ème siècle"

De nos jours, la description de poste pour les « scientifiques des données » se présente sous différentes formes et relève globalement de ces catégories :

Scientifique des données
Chercheur
Scientifique appliqué
Ingénieur de données
Ingénieur de recherche
Ingénieur en apprentissage automatique (ML)

Si vous interrogez quelqu'un sur la différence entre le rôle et les responsabilités des différents titres de poste, vous vous retrouverez très probablement avec une ligne vague qui délimite chacun d'eux.

Si vous interrogez quelqu'un sur la différence entre le rôle et les responsabilités des différents titres de poste, vous vous retrouverez très probablement avec une ligne vague qui délimite chacun d'eux. En réalité, il s'agit généralement d'un périmètre de travail flou qui diffère en fonction des définitions de rôle de l'entreprise et de l'équipe. La principale différence se situe généralement entre les rôles de "Scientifique" et d'"Ingénieur", où le scientifique est généralement censé se concentrer davantage sur la qualité des données et du modèle, tandis que l'ingénieur se concentre davantage sur l'intégrité du modèle et la fiabilité du service.

Q : Quelle qualité de données ou de modèle ?

C'est généralement la responsabilité des « scientifiques ». Dans l'industrie, cela est spécifique aux différentes tâches et applications que l'équipe prend en charge et/ou développe. C'est similaire aux chercheurs universitaires qui construisent un modèle d'apprentissage automatique, mais l'aspect pratique de savoir si le modèle final est utilisable l'emporte généralement sur la nécessité de battre les résultats de pointe dans l'industrie.

Les tâches de qualité des données impliquent généralement :
- Quelles données open source pouvez-vous utiliser pour entraîner/améliorer le modèle ?
- À qui appartiennent les sources de données internes que vous pouvez utiliser pour entraîner/améliorer le modèle ?
- Comment extraire, transformer, stocker et charger les données pour les adapter au modèle ?
- Comment améliorer la qualité et la taille des données ?

Les tâches de qualité des modèles impliquent généralement :
- Trouver le bon algorithme ou l'architecture réseau à utiliser pour résoudre la tâche
- Définir/affiner le cadre d'évaluation utilisé pour évaluer la tâche/l'application
- Améliorer les performances du modèle sur la base d'une métrique / d'un cadre d'évaluation défini
- Optimiser le compromis vitesse et performance de l'algorithme pour rendre le modèle utilisable en production

Q : Qu'est-ce que l'intégrité du modèle et la fiabilité du service ?

C'est généralement la responsabilité des « ingénieurs ». La fiabilité est aujourd'hui essentielle pour toutes les applications d'apprentissage automatique modernes. Il est important de s'assurer que les efforts des scientifiques en matière d'émissions de carbone pour produire le meilleur modèle pour les clients/utilisateurs produisent les performances attendues en production.

La déclaration d'un scientifique « ça marche sur mon ordinateur portable » est inacceptable dans l'industrie et les ingénieurs contribuent à faire de « ça marche, n'importe où » un rêve devenu réalité.

Les tâches d'intégrité du modèle impliquent généralement :
- Construire et maintenir le cadre pour automatiser la formation et le déploiement des modèles
- S'assurer que les fonctionnalités/améliorations apportées dans les projets expérimentaux sont disponibles dans les modèles de production
- Améliorations progressives pour automatiser les configurations expérimentales afin de réduire/éliminer les étapes manuelles lors de la mise en production du modèle des scientifiques.
Les tâches de fiabilité du service impliquent généralement :
- Configuration d'alertes et surveillance de l'utilisation des applications par les utilisateurs et si/quand le modèle d'apprentissage automatique échoue/casse
- Spécifier et limiter l'accès des utilisateurs au modèle pour se conformer aux réglementations internes/nationales/régionales
- Rendre le service accessible à un nombre croissant d'utilisateurs et de charge

De nos jours, ces responsabilités d'ingénierie sont parfois connues sous le nom d'opérations d'apprentissage automatique (MLOps), Chip Huyen a un bon article de blog qui donne un aperçu des MLOps pour les aspirants ingénieurs ML/Data/Research.

Il existe de nombreuses autres définitions de ce que font l'apprentissage automatique, les données, la recherche appliquée, les scientifiques/ingénieurs, mais ce qui précède est tiré de mon expérience personnelle dans l'industrie.

Q : Dois-je devenir Scientifique ou Ingénieur ?

Ça dépend! Et comme indiqué précédemment, cela varie d'une entreprise à l'autre et tout le monde devrait toujours demander au responsable du recrutement quelles sont les responsabilités attendues lors du processus de candidature.

Un bon scientifique devrait être capable d'effectuer certaines tâches d'ingénierie. Inversement, un bon ingénieur devrait être capable de créer des modèles d'apprentissage automatique.

Personnellement, en tant que scientifique, voici mes conseils que je donne aux aspirants/nouveaux scientifiques :

Connaître certaines aides en ingénierie backend/frontend
Savoir ce qui est possible, ce qui est facile, ce qui est difficile pour les ingénieurs
Apprendre des ingénieurs (dockers, bases de données, cloud, conception/développement d'applications)
Et laissez les ingénieurs apprendre ce que vous faites

Et une note finale que j'essaie toujours de me rappeler,

P/S : Un ingénieur pourrait former un meilleur modèle qu'un scientifique.

Q : Parlons pratique, y a-t-il une différence entre Data, Research ou Applied Scientist ?

En ce qui concerne les rôles et les responsabilités, ils sont similaires, mais en pratique, certaines entreprises peuvent avoir une démarcation claire entre les différents postes de scientifiques, donc toujours en tant que personnel des ressources humaines (RH) ou responsable du recrutement s'il est possible de partager les « lignes directrices sur les rôles » spécifiques au poste auquel vous postulez et particulièrement important de comprendre les attentes de votre rôle une fois que vous avez rejoint l'entreprise et l'équipe .

Q : Oui, c'est tout beau et bon à propos de la technologie, de la carrière, dites-m'en plus sur la pâte (différence $$$ en termes pratiques) pour les données, la recherche ou les scientifiques appliqués !

Je suis personnellement un " pratique " dans la plupart des cas, mais quand il s'agit de "la pâte", https://www.levels.fyi/ et demander à des amis/seniors dans les entreprises sont votre meilleur pari pour en savoir plus sur l'entreprise et leur rémunération.

Mon avis personnel :

"Ne le faites pas pour l'argent" est surestimé. Faites-le par amour de le faire. J'aime regarder les chiffres et les données linguistiques, donc la PNL. Mais n'oubliez pas d'être suffisamment payé pour le faire =)

Après la discussion sur la carrière, maintenant la partie technique !

J'ai discuté des différences entre les scientifiques et les ingénieurs dans le domaine de l'apprentissage automatique et maintenant je vais essayer de répondre à une question pressante que presque tous les scientifiques poseraient :

Q : J'ai un problème X, quel outil/méthode Y pour le résoudre ?

C'est généralement la pire forme de questions StackOverflow selon le guide " Comment poser une bonne question ", mais je pense que c'est quelque chose auquel la communauté devrait essayer de répondre chaque fois que nous le pouvons.

Mon avis personnel :

Il n'y a pas de « mauvaises » questions ou « besoin de se concentrer davantage » sur ces questions pratiques. Mais cela attire inévitablement parfois des publicités malveillantes sur les produits/technologies.

Voici mon approche en 10 étapes pour répondre au problème X, approche Y, en tant que « scientifique », …

Revue de littérature
1. Plus vous lisez, plus vous avez d'outils à portée de main
2. Mais limitez votre temps pour éviter les terriers de lapin, essayez peut-être le « Paper-Blitzing » =)
Savoir quels sont les ensembles de données disponibles et ce qu'ils contiennent (bruit, bizarreries, etc.)
Trouver sur quelle métrique d'évaluation la tâche X est généralement évaluée
Suivez la plus ancienne citation pertinente de la tâche , lisez cet article
Trouvez l'article le plus cité pour la tâche , utilisez-le comme référence
1. Dans la mesure du possible, recherchez les ensembles de données dans cet article le plus cité et le dernier article le plus brillant
Définissez vos critères de réussite pour la tâche de manière industrielle (il se peut que ce ne soit pas la métrique d'évaluation standard pour la tâche)
Essayez de reproduire ou de réimplémenter la ligne de base
Communiquez votre modèle/bibliothèques aux ingénieurs . Votre ingénieur peut-il le produire?
La ligne de base a-t-elle répondu aux critères de réussite ? Demandez à l'entreprise/partie prenante du projet si c'est suffisant
Construisez-le, testez-le, cassez-le, répétez !

Q : Attendez une minute, cela signifie-t-il qu'il n'y a pas « un seul véritable algorithme/outil Y » que je puisse apprendre pour résoudre la tâche X ?

Oui, il n'y en a pas.

D'après mon expérience personnelle, l'outil/modèle qui entre dans la main de vos clients dépend généralement fortement des étapes 6 à 9 de l'approche décrite ci-dessus.

Q : Quelle est la prochaine étape en matière d'apprentissage automatique et de PNL (ce qui vous passionne personnellement) ?

En ce moment, je passe mon temps libre à apprendre Huggingface 🤗 et pas seulement à utiliser les différents composants de la bibliothèque, mais plus encore à comprendre quelles fonctionnalités en font un succès et quel est le facteur X qui l'a fait gagner du terrain dans la communauté de l'apprentissage automatique.

Et la prochaine chose dans laquelle j'investirais mon temps est le ML quantique, si j'ai encore plus de temps =)

Au revoir et merci pour le poisson !

J'espère que les questions et réponses ci-dessus vous donneront un aperçu de " quel genre de scientifique je suis ". Et s'il y a d'autres questions brûlantes que vous souhaitez poser, n'hésitez pas à laisser le commentaire sous la publication.

Enfin, je tiens à remercier chaleureusement la communauté HackerNoon, le personnel et les sponsors pour la nomination aux Noonie Awards et si vous aimez cet article, aidez à casser le bouton de vote sur https://www.noonies.tech/2022/programming/2022- hackernoon-contributeur-de-l'année-traitement-du-langage-naturel

L O A D I N G
. . . comments & more!

About Author

Liling Tan@alvations

Code, write, possibly stream someday.

Read my stories Nominated for 2022 - HackerNoon Contributor of the Year - Database