La imagen destacada se generó con Midjourney Diffusion con el mensaje "Prevalece una pitón, arte de fantasía digital".
La ciencia de datos es donde se cruzan las estadísticas, la programación y la comunicación. Un científico de datos hace una pregunta y usa datos para responder esa pregunta a través de mecanismos de diversa complejidad. Tienen el conocimiento y el conjunto de herramientas para saber qué pruebas y métodos aplicar a cada tipo de datos. Y tienen la capacidad de extraer respuestas de los datos y transmitir esas respuestas en una forma general de comunicación cotidiana.
Los datos pueden variar de simples a tremendamente complejos. Puede ser "limpio" y puede ser "desordenado". A veces tenemos una pregunta, pero no tenemos los datos. Un científico y/o analista de datos debe convertir los datos desordenados en datos limpios mediante el uso de herramientas especializadas. También pueden desarrollar '
Las encuestas semanales de HackerNoon (del 4 de octubre de 2023 al 16 de abril de 2023) se utilizaron para evaluar dónde se encuentran nuestros lectores en este tema. Se le preguntó a la comunidad de HackerNoon cuál es su herramienta de ciencia de datos de caballo de batalla, dadas algunas de las opciones más populares y 374 personas respondieron. Los resultados se pueden ver en la siguiente imagen:
¿Por qué hay tantas herramientas para elegir?
Veamos algunos aspectos destacados de cada herramienta de la encuesta. Por supuesto, hay más herramientas que no se discuten aquí 😆
❌ Código abierto.
✅ ¡Es fácil de usar al estilo de Microsoft!
❌ No es lo suficientemente avanzado para proyectos complejos de ciencia de datos.
✅ Genera tablas y gráficos con estilo que se pueden exportar fácilmente.
Todos estamos familiarizados con Excel. Claro, es excelente para tareas cotidianas como la manipulación, limpieza y visualización de datos, pero no es suficiente para proyectos más avanzados. Puede volverse astuto con la creación de paneles e informes, e incluso puede configurar API especializadas dentro de Excel.
✅ Código abierto.
❌ Tiene una curva de aprendizaje importante.
✅ Puede generar gráficos, tablas y resultados ordenados y personalizables.
❌ Puede estar limitado en algunas de las herramientas de aprendizaje automático más avanzadas.
✅ Especializado para problemas de base estadística.
Un programa versátil de código abierto que es excelente para el análisis de datos y la ciencia de datos es
** “Nuestra misión es crear software de código abierto para la ciencia de datos, la investigación científica y la comunicación técnica. Hacemos esto para mejorar la producción y el consumo de conocimiento por parte de todos, independientemente de los medios económicos”. -- Posit \ Similar a Python, la versatilidad del lenguaje de programación R es enorme, lo que permite a los científicos de datos realizar tareas complejas utilizando múltiples enfoques. Las bibliotecas y los paquetes se desarrollan constantemente para asumir tareas especializadas que los programadores pueden aprovechar. Y si no tienen el paquete que está buscando, ¡ desarrolla uno tú mismo !
Puedeusar R y Python en conjunto . Mire esto si está trabajando en un proyecto colaborativo con programadores de R y Python.
❌ Código abierto.
✅ Crea hermosos informes.
❌ Puede parecer fácil de usar, pero tiene una complejidad oculta.
✅ Ideal para disputas y manipulación de datos.
❌ Habilidades limitadas para proyectos complejos de ciencia de datos.
✅ Puede extraer datos de varias fuentes.
Power BI realmente brilla como un
✅ Código abierto.
❌ Tiene una curva de aprendizaje importante.
✅ Puede crear gráficos, tablas y resultados ordenados.
✅ Tiene numerosas bibliotecas de ciencia de datos como TensorFlow, Scikit-learn, NumPy, Pandas, PyTorch, etc.
✅ Es un lenguaje de programación multipropósito que hace que tus esfuerzos de aprendizaje lleguen más lejos.
Para trabajar con Python, querrá aprender a configurar un entorno virtual y probablemente querrá elegir una plataforma informática como Jupyter Notebook para realizar su trabajo.
❌ código abierto.
✅ Crea hermosos tableros.
❌ Capacidades limitadas de preprocesamiento de datos, como limpieza y disputa.
✅ Ideal para análisis de datos.
❌ Habilidades limitadas para proyectos complejos de ciencia de datos.
✅ Los informes y paneles se pueden compartir fácilmente con otros.
Nuestra encuesta mostró que Python llegó a la cima de las opciones dadas para herramientas de ciencia de datos. Dada su versatilidad, tanto dentro como fuera del campo de la ciencia de datos, esto no fue una sorpresa. Python se promociona como un lenguaje de programación fácil de aprender. Seamos honestos, si eres un completo principiante en la codificación de computadoras, no será " fácil " al principio, pero con la práctica, eventualmente se convertirá en una segunda naturaleza para ti.
Comparta sus pensamientos en los comentarios y esté atento a otras encuestas de HackerNoon para participar.