La búsqueda de una definición útil He aquí mi intento más conciso: " ". Siéntase libre de huir ahora o quedarse en un recorrido por sus tres subcampos. La ciencia de datos es la disciplina de hacer que los datos sean útiles Estadísticas Aprendizaje automático Minería de datos / análisis El término que nadie realmente definió Si hurga en la temprana del término , verá que se unen dos temas. Permítanme parafrasear para su diversión: historia ciencia de datos Big (ger) datos significa más retoques con las computadoras. no pueden codificar su salida de una bolsa de papel. Los estadísticos Y así nace la ciencia de datos. La forma en que escuché por primera vez que se define el trabajo es "Un es un que puede codificar". Estaré lleno de opiniones sobre eso , pero primero, ¿por qué no examinamos la ciencia de datos en sí? científico de datos estadístico en un momento alrededor de 2014. Definiciones de Twitter Me encanta cómo el lanzamiento de en 2003 va bien para el alcance más limitado posible: Entonces… ¿todo, entonces? Es difícil pensar en algo que no tenga nada que ver con la información. (Debería dejar de pensar en esto antes de que me explote la cabeza). Journal of Data Science "Por 'Ciencia de datos' nos referimos a casi todo lo que tiene algo que ver con los datos". Desde entonces, hemos visto una multitud de opiniones, desde el muy transitado diagrama de Venn de Conway ( ) hasta la de Mason y Wiggins. abajo publicación clásica La definición de ciencia de datos de . Mi gusto personal va más hacia la definición en . Drew Conway Wikipedia tiene uno que es muy parecido a lo que enseño a mis alumnos: Wikipedia La ciencia de datos es un "concepto para unificar estadísticas, análisis de datos, aprendizaje automático y sus métodos relacionados" para "comprender y analizar fenómenos reales" con datos. Eso es un bocado, así que déjame ver si puedo hacerlo breve y dulce: “La ciencia de datos es la disciplina de hacer que los datos sean útiles”. Lo que estás pensando ahora podría ser: “Buen intento, Cassie. Es lindo, pero es una reducción notoriamente con pérdidas. ¿Cómo la palabra 'útil' captura toda esa jerga?” Bueno, está bien, discutámoslo con imágenes. Aquí hay un mapa para la ciencia de datos para usted, perfectamente fiel a la definición de . Wikipedia ¿Qué son estas cosas y cómo sabes dónde estás en el mapa? Si está a punto de intentar desglosarlos por kits de , disminuya la velocidad. La diferencia entre un estadístico y un ingeniero de aprendizaje automático no es que uno use R y el otro use Python. La taxonomía SQL vs R vs Python es desaconsejable por muchas razones, una de las cuales es que el software evoluciona. (Recientemente, incluso puede hacer ). ¿No preferiría un desglose que dure? De hecho, siga adelante y no lea todo este párrafo. herramientas estándar ML en SQL Quizás lo peor es la forma favorita en que los novatos dividen el espacio. Sí, lo has adivinado: por el (¡sorpresa! así están estructurados los cursos universitarios). Bastante por favor, no taxonomice por histogramas vs pruebas t vs redes neuronales. Francamente, si es inteligente y tiene algo que decir, puede usar el mismo algoritmo para cualquier parte de la ciencia de datos. Puede parecer el monstruo de Frankenstein, pero te aseguro que puede ser forzado a cumplir tus órdenes. algoritmo ¡Basta ya de dramatismo! Aquí está la taxonomía que propongo: Ninguno-Uno-Muchos ¿Qué diablos es esto? ¡Por qué, decisiones, por supuesto! (En . Cuando todos los datos que necesita estén visibles para usted, puede usar el análisis descriptivo para tomar tantas decisiones como desee. Solo mire los datos y listo). información incompleta Es a través de nuestras acciones, nuestras decisiones, que afectamos al mundo que nos rodea. Te prometí que íbamos a hablar sobre cómo hacer que los datos sean útiles. Para mí, la idea de utilidad está estrechamente relacionada con la influencia en las acciones del mundo real. Si creo en Papá Noel, no importa particularmente a menos que pueda influir en mi comportamiento de alguna manera. Luego, dependiendo de las posibles consecuencias de ese comportamiento, podría comenzar a importar mucho. Es a través de nuestras acciones, nuestras decisiones, que afectamos al mundo que nos rodea (e invitamos a que nos afecte a nosotros). Así que aquí está la nueva imagen orientada a la toma de decisiones para usted, completa con las tres formas principales de hacer que sus datos sean útiles. Minería de datos / análisis Si aún no sabes qué decisiones quieres tomar, lo mejor que puedes hacer es salir en busca de inspiración. Eso se llama minería de datos o o análisis descriptivo o análisis exploratorio de datos (EDA) o descubrimiento de conocimiento (KD), dependiendo de con qué grupo te juntaste durante tus años impresionables. análisis Regla de oro de la analítica: solo saca conclusiones sobre lo que puedes ver. A menos que sepa cómo piensa enmarcar su toma de decisiones, comience aquí. La buena noticia es que este es fácil. Piense en su conjunto de datos como un montón de negativos que encontró en un cuarto oscuro. La minería de datos se trata de hacer funcionar el equipo para exponer todas las imágenes lo más rápido posible para que pueda ver si hay algo inspirador en ellas. Al igual que con las fotos, recuerda no tomarte demasiado en serio lo que ves. No tomaste las fotos, por lo que no sabes mucho sobre lo que está fuera de la pantalla. La regla de oro de la minería de datos es: Solo saque conclusiones sobre lo que puede ver, nunca sobre lo que no puede ver (para eso necesita estadísticas y mucha más experiencia). adhiérase a lo que está aquí. Aparte de eso, no puedes hacer nada malo. La velocidad gana, así que empieza a practicar. La experiencia en minería de datos se juzga por la velocidad con la que puede examinar sus datos. Ayuda a no dormitar más allá de las pepitas interesantes. El cuarto oscuro es intimidante al principio, pero no hay tanto. Simplemente aprenda a trabajar con el equipo. Aquí hay un tutorial en y aquí hay uno en para comenzar. Puede llamarse analista de datos tan pronto como comience a divertirse y puede llamarse analista experto cuando pueda exponer fotos (y todos los demás tipos de conjuntos de datos) a la velocidad del rayo. R Python Inferencia estadística La inspiración es barata, pero el rigor es caro. Si desea ir más allá de los datos, necesitará capacitación especializada. Como alguien con licenciatura posgrado en estadística, puede que esté un poco sesgado aquí, pero en mi opinión, la inferencia estadística (estadística para abreviar) es la más difícil y cargada de filosofía de las tres áreas. Ser bueno en eso lleva la mayor parte del tiempo. y La inspiración es barata, pero el rigor es caro. Si tiene la intención de tomar decisiones importantes, de alta calidad y con control de riesgos que se basen en conclusiones sobre el mundo más allá de los datos disponibles para usted, tendrá que incorporar habilidades estadísticas a su equipo. Un gran ejemplo es ese momento en el que tu dedo está sobre el botón de inicio de un sistema de IA y se te ocurre que debes comprobar que funciona antes de soltarlo (siempre es una buena idea, en serio). Aléjese del botón y llame al estadístico. La estadística es la ciencia de cambiar de opinión (bajo incertidumbre). Si desea obtener más información, he escrito para su disfrute. este súper resumen de estadísticas de 8 minutos Aprendizaje automático El aprendizaje automático consiste esencialmente . He escrito algunas publicaciones al respecto, incluso si es cómo con ella, y el primer par de artículos en una serie de lenguaje sencillo aborda los aspectos esenciales de la jerga ( ). Ah, y si quieres compartirlos con amigos que no hablen inglés, algunos de ellos están traducidos . en hacer recetas de etiquetado de cosas utilizando ejemplos en lugar de instrucciones diferente de la IA, comenzar por qué las empresas fallan empezar aquí aquí ingeniería de datos ¿Qué pasa con , el trabajo que entrega datos al equipo de ciencia de datos en primer lugar? Dado que es un campo sofisticado por derecho propio, prefiero protegerlo de las aspiraciones hegemónicas de la ciencia de datos. Además, está mucho más cerca en especie a la ingeniería de software que a las estadísticas. la ingeniería de datos La diferencia entre ingeniería de datos y ciencia de datos es una diferencia de antes y después. Siéntase libre de ver la diferencia entre la como . La mayor parte del trabajo técnico que conduce al nacimiento de los datos (antes) puede llamarse cómodamente "ingeniería de datos" y todo lo que hacemos una vez que han llegado algunos datos (después) es "ciencia de datos". ingeniería de datos y la ciencia de datos antes y después Inteligencia de decisión , incluida la toma de decisiones a escala con datos, lo que la convierte en una disciplina de ingeniería. Aumenta los aspectos aplicados de la ciencia de datos con ideas de las ciencias sociales y de gestión. DI tiene que ver con las decisiones La inteligencia de decisiones agrega componentes de las ciencias sociales y de gestión. En otras palabras, es un superconjunto de esos bits de ciencia de datos que no se preocupan por cosas de investigación como la creación de metodologías fundamentales para uso de propósito general. ¿Todavía hambriento? para entretenerlo mientras toco mi teclado. Aquí hay un desglose de los roles en un proyecto de ciencia de datos