La ciencia de datos recorrió un largo camino desde los primeros días de las conferencias Knowledge Discovery in Databases (KDD) y Very Large Data Bases (VLDB) . Los ingenieros de software de las décadas de 1980 y 1990 que manejaban bases de datos se convirtieron en ingenieros de bases de datos especializados en la década de 2000 . Mientras tanto, grupos de científicos informáticos en laboratorios de investigación más pequeños experimentan sobre aprendizaje automático e inteligencia artificial . Los grandes datos se encuentran con el algoritmo inteligente chocaron en una explosión cámbrica en la década de 2010, lo que convirtió a " Científico de datos: el trabajo más sexy del siglo XXI ". Eso nos lleva a una década más tarde, después de la pandemia de 2022, haciendo la pregunta: " ¿Sigue siendo el científico de datos el trabajo más atractivo del siglo XXI? ”.
Perdón por el atajo, pero este artículo está escrito junto con el Premio Noonies 2022. Los premios Noonie 2002 de HackerNoon celebran a los escritores técnicos que comparten sus mejores y más brillantes conocimientos en todo lo relacionado con la tecnología.
Una introducción formal:
Hola, soy Liling. Durante el día, soy un científico aplicado en Amazon y después del trabajo, codifico código abierto y escribo artículos tecnológicos sobre el proceso del lenguaje natural y, a veces, artículos sobre la cultura pop de los juegos.
Es un placer y un honor ser nominado en la categoría de Colaborador del año de Hackernoon para el Procesamiento del lenguaje natural (NLP) y si ha disfrutado del contenido de NLP o Traducción automática que he estado compartiendo, ayúdeme a aplastar el botón de votar en https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing
Para celebrar la nominación, estoy escribiendo este artículo en un formato de preguntas y respuestas tipo "Ask Me Anything".
Como escritor de tecnología, me encanta compartir las tecnologías emergentes en el aprendizaje automático y tengo una especial debilidad por las tecnologías relacionadas con el lenguaje y la traducción. Para celebrar la nominación, estoy escribiendo este artículo en un formato de preguntas y respuestas tipo "Ask Me Anything". Obtenga más información sobre mis pensamientos y opiniones sobre " ¿qué clase de científico soy?" ” en la industria de la tecnología en las siguientes secciones.
Hoy en día, la descripción del trabajo para los " científicos de datos " se presenta de diferentes formas y se incluye en general en estas categorías:
Si le pregunta a alguien sobre la diferencia entre el rol y las responsabilidades de los diferentes títulos de trabajo, lo más probable es que termine con una línea vaga que delinea cada uno de ellos.
Si le pregunta a alguien sobre la diferencia entre el rol y las responsabilidades de los diferentes títulos de trabajo, lo más probable es que termine con una línea vaga que delinea cada uno de ellos. En realidad, suele ser un ámbito de trabajo difuso que se superpone y difiere según las definiciones de funciones de la empresa y del equipo. La principal diferencia generalmente surge entre los roles de "Científico" e "Ingeniero", donde generalmente se espera que el científico se centre más en el lado de la calidad de los datos y el modelo, mientras que el ingeniero se centra más en la integridad del modelo y la confiabilidad del servicio.
Esto suele ser responsabilidad de los " científicos ". En la industria, esto es específico para las diferentes tareas y aplicaciones que el equipo apoya y/o desarrolla. Es similar a los investigadores académicos que construyen el modelo de aprendizaje automático, pero la practicidad de si el modelo final es utilizable generalmente supera la necesidad de superar los resultados de vanguardia en la industria.
Esto suele ser responsabilidad de los " ingenieros ". La confiabilidad es fundamental para cualquier aplicación moderna de aprendizaje automático en la actualidad. Es importante asegurarse de que los esfuerzos de emisión de carbono de los científicos para producir el mejor modelo para los clientes/usuarios produzcan el rendimiento esperado en la producción.
La declaración de un científico “ funciona en mi computadora portátil ” es inaceptable en la industria y los ingenieros ayudan a hacer realidad el sueño de “ funciona en cualquier lugar ”.
Creación y mantenimiento del marco para automatizar el entrenamiento y la implementación de modelos
Asegurarse de que las características/mejoras realizadas en proyectos experimentales estén disponibles en los modelos de producción
Mejoras incrementales para automatizar las configuraciones experimentales para reducir/eliminar los pasos manuales para llevar el modelo de los científicos a producción.
En la actualidad, a veces estas responsabilidades de ingeniería se conocen como operaciones de aprendizaje automático (MLOps). Chip Huyen tiene una buena publicación de blog que ofrece una descripción general de MLOps para los aspirantes a ingenieros de ML/datos/investigación.
Hay muchas otras definiciones de lo que hacen los científicos/ingenieros de aprendizaje automático, datos, investigación aplicada, pero la anterior es de mi experiencia personal en la industria.
¡Eso depende! Y como se discutió anteriormente, varía de una compañía a otra y todos siempre deben preguntarle al gerente de contratación sobre las responsabilidades esperadas durante el proceso de solicitud de empleo.
Un buen científico debería poder hacer algunas tareas de ingeniería. Viceversa, un buen ingeniero debería poder construir algunos modelos de aprendizaje automático.
Personalmente, como científico, estos son mis consejos que doy a los científicos aspirantes/nuevos:
Y una nota final que siempre trato de recordarme,
P/D: Un ingeniero podría entrenar un modelo mejor que un científico.
En cuanto a los roles y la responsabilidad, son similares, pero en términos prácticos, algunas empresas pueden tener una demarcación clara entre los diferentes puestos de científicos, por lo que siempre como personal de recursos humanos (RR. HH.) o gerente de contratación si es posible compartir las " directrices de roles " específicas para el puesto al que se postula y es especialmente importante comprender las expectativas de su puesto una vez que se haya unido a la empresa y al equipo .
Personalmente, soy un " práctico " en la mayoría de los casos, pero cuando se trata de "la masa", https://www.levels.fyi/ y preguntar a amigos/seniors en las empresas es su mejor opción para saber más sobre la empresa. y su compensación.
Mi opinión personal:
“No lo hagas por el dinero” está sobrevalorado. Hazlo por el amor de hacerlo. Disfruto mirando los números y los datos del idioma, por lo tanto, la PNL. Pero recuerda que te pagan lo suficiente por hacerlo =)
He discutido las diferencias entre científicos e ingenieros en el campo del aprendizaje automático y ahora intentaré responder una pregunta apremiante que casi todos los científicos harían:
Esta suele ser la peor forma de preguntas de StackOverflow según la guía " Cómo hacer una buena pregunta ", pero creo que es algo que la comunidad debería tratar de responder siempre que podamos.
Mi opinión personal:
No hay una pregunta "mala" o "necesita más enfoque" para estas preguntas prácticas. Pero inevitablemente a veces atrae publicidad maliciosa de productos/tecnología.
Revisión de literatura
Sepa cuáles son los conjuntos de datos disponibles y qué hay en ellos (ruido, peculiaridades, etc.)
Encuentre en qué métrica de evaluación suele evaluarse la tarea X
Rastree la cita relevante más antigua de la tarea , lea ese documento
Encuentre el artículo más citado para la tarea , utilícelo como referencia
Defina sus criterios de éxito para la tarea industrialmente (puede que no sea la métrica de evaluación estándar para la tarea)
Intente replicar o reimplementar la línea de base
Comunique su modelo/bibliotecas a los ingenieros . ¿Puede su ingeniero producirlo?
¿La línea de base cumplió con los criterios de éxito? Pregúntele a la parte interesada del negocio/proyecto si es suficiente
¡Constrúyelo, pruébalo, rómpelo, repite!
Por experiencia personal, la herramienta/modelo que llega a manos de sus clientes generalmente depende en gran medida de los pasos 6 a 9 del enfoque descrito anteriormente.
Por el momento, estoy pasando mi tiempo libre aprendiendo sobre Huggingface 🤗 y no solo sobre cómo usar los diferentes componentes de la biblioteca, sino más aún para entender qué características hacen que sea un éxito y cuál es el factor X que hizo que ganara tracción. en la comunidad de aprendizaje automático.
Y lo siguiente en lo que invertiría mi tiempo es en ML cuántico, si tengo aún más tiempo =)
Espero que las preguntas y respuestas anteriores le den algunas ideas sobre " qué tipo de científico soy ". Y si hay más preguntas candentes que quieras hacer, no dudes en dejar un comentario debajo de la publicación.
Finalmente, quiero agradecer enormemente a la comunidad, el personal y los patrocinadores de HackerNoon por la nominación a los premios Noonie y, si disfruta este artículo, ayude a romper el botón de votación en https://www.noonies.tech/2022/programming/2022- hackernoon-colaborador-del-año-procesamiento-del-lenguaje-natural