paint-brush
Python prevalece: el 57% elige Python como su herramienta de ciencia de datos de referenciapor@jessblaq
1,168 lecturas
1,168 lecturas

Python prevalece: el 57% elige Python como su herramienta de ciencia de datos de referencia

por Jessica Blaquiere5m2023/04/19
Read on Terminal Reader

Demasiado Largo; Para Leer

Se le preguntó a la comunidad de HackerNoon cuál es su herramienta de ciencia de datos de caballo de batalla, dadas algunas de las opciones más populares y 374 personas respondieron. Python fue elegido como la herramienta de referencia para la ciencia de datos por más del 50 % de los lectores. RStudio solo fue seleccionado por el 9% de los encuestados.
featured image - Python prevalece: el 57% elige Python como su herramienta de ciencia de datos de referencia
Jessica Blaquiere HackerNoon profile picture
0-item
1-item


La imagen destacada se generó con Midjourney Diffusion con el mensaje "Prevalece una pitón, arte de fantasía digital".


Acerca de la ciencia de datos

La ciencia de datos es donde se cruzan las estadísticas, la programación y la comunicación. Un científico de datos hace una pregunta y usa datos para responder esa pregunta a través de mecanismos de diversa complejidad. Tienen el conocimiento y el conjunto de herramientas para saber qué pruebas y métodos aplicar a cada tipo de datos. Y tienen la capacidad de extraer respuestas de los datos y transmitir esas respuestas en una forma general de comunicación cotidiana.


Los datos pueden variar de simples a tremendamente complejos. Puede ser "limpio" y puede ser "desordenado". A veces tenemos una pregunta, pero no tenemos los datos. Un científico y/o analista de datos debe convertir los datos desordenados en datos limpios mediante el uso de herramientas especializadas. También pueden desarrollar ' raspado ' programas que están diseñados para ir a buscar datos si no tienen lo que necesitan para responder a su pregunta. Una vez que se obtienen los datos y están en forma utilizable, se envían a pruebas y modelos estadísticos a través de programas y herramientas como Python, RStudio, etc. Pero, ¿qué herramientas son las mejores?


Lectores de HackerNoon


Fuente: Giphy


Las encuestas semanales de HackerNoon (del 4 de octubre de 2023 al 16 de abril de 2023) se utilizaron para evaluar dónde se encuentran nuestros lectores en este tema. Se le preguntó a la comunidad de HackerNoon cuál es su herramienta de ciencia de datos de caballo de batalla, dadas algunas de las opciones más populares y 374 personas respondieron. Los resultados se pueden ver en la siguiente imagen:



  • [ ] Más del 50 % de los lectores de HackerNoon, que en su mayoría pertenecen a la comunidad tecnológica, eligieron Python como su herramienta de ciencia de datos. Esto no es tan sorprendente. Pitón es de código abierto lo que lo hace accesible para todos 🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃


Fuente: Giphy


  • [ ] 18% seleccionado Sobresalir como su herramienta preferida de ciencia de datos.
  • [ ] Power BI solo fue seleccionado por el 9 % de los encuestados**.**
  • [ ] También una herramienta de código abierto, RStudio sólo obtuvo el 9% de los votos.
  • [ ] Finalmente, solo el 5% eligió Cuadro como su herramienta de referencia para la ciencia de datos



Herramientas

¿Por qué hay tantas herramientas para elegir? Este campo ha ido ganando en complejidad con el tiempo, por lo que, naturalmente, la elección de las herramientas también lo ha sido. Hay tantos flujos de ciencia de datos que cada individuo debe decidir por sí mismo qué herramienta es adecuada para ellos. Y, de manera realista, utilizará múltiples herramientas en conjunto.


Veamos algunos aspectos destacados de cada herramienta de la encuesta. Por supuesto, hay más herramientas que no se discuten aquí 😆


Sobresalir

❌ Código abierto.

✅ ¡Es fácil de usar al estilo de Microsoft!

❌ No es lo suficientemente avanzado para proyectos complejos de ciencia de datos.

✅ Genera tablas y gráficos con estilo que se pueden exportar fácilmente.


¡Excepto esta encuesta, aparentemente! Fuente: Giphy


Todos estamos familiarizados con Excel. Claro, es excelente para tareas cotidianas como la manipulación, limpieza y visualización de datos, pero no es suficiente para proyectos más avanzados. Puede volverse astuto con la creación de paneles e informes, e incluso puede configurar API especializadas dentro de Excel.


Rstudio

✅ Código abierto.

❌ Tiene una curva de aprendizaje importante.

✅ Puede generar gráficos, tablas y resultados ordenados y personalizables.

❌ Puede estar limitado en algunas de las herramientas de aprendizaje automático más avanzadas.

✅ Especializado para problemas de base estadística.


Un programa versátil de código abierto que es excelente para el análisis de datos y la ciencia de datos es RStudio , que ahora tiene el nuevo y brillante nombre Postular .


** “Nuestra misión es crear software de código abierto para la ciencia de datos, la investigación científica y la comunicación técnica. Hacemos esto para mejorar la producción y el consumo de conocimiento por parte de todos, independientemente de los medios económicos”. -- Posit \ Similar a Python, la versatilidad del lenguaje de programación R es enorme, lo que permite a los científicos de datos realizar tareas complejas utilizando múltiples enfoques. Las bibliotecas y los paquetes se desarrollan constantemente para asumir tareas especializadas que los programadores pueden aprovechar. Y si no tienen el paquete que está buscando, ¡ desarrolla uno tú mismo !


Puedeusar R y Python en conjunto . Mire esto si está trabajando en un proyecto colaborativo con programadores de R y Python.


BI de energía

❌ Código abierto.

✅ Crea hermosos informes.

❌ Puede parecer fácil de usar, pero tiene una complejidad oculta.

✅ Ideal para disputas y manipulación de datos.

❌ Habilidades limitadas para proyectos complejos de ciencia de datos.

✅ Puede extraer datos de varias fuentes.


Power BI realmente brilla como un herramienta de visualización de datos e informes en lugar de una herramienta de trabajo para la ciencia de datos. Tiene la capacidad de realizar manipulaciones de datos especializadas a través de operaciones codificadas personalizadas, como expresiones regulares, etc. de una herramienta de presentación.


Pitón

✅ Código abierto.

❌ Tiene una curva de aprendizaje importante.

✅ Puede crear gráficos, tablas y resultados ordenados.

✅ Tiene numerosas bibliotecas de ciencia de datos como TensorFlow, Scikit-learn, NumPy, Pandas, PyTorch, etc.

✅ Es un lenguaje de programación multipropósito que hace que tus esfuerzos de aprendizaje lleguen más lejos.


Pitón es un lenguaje de programación multipropósito orientado a objetos. Es conocido por ser un lenguaje de programación fácil de aprender y versátil. Debido a su versatilidad, existe una comunidad masiva de programadores, por lo que los recursos educativos son interminables. Hay una plétora de bibliotecas de ciencia de datos que están listos para usar.


Para trabajar con Python, querrá aprender a configurar un entorno virtual y probablemente querrá elegir una plataforma informática como Jupyter Notebook para realizar su trabajo.


Cuadro

❌ código abierto.

✅ Crea hermosos tableros.

❌ Capacidades limitadas de preprocesamiento de datos, como limpieza y disputa.

✅ Ideal para análisis de datos.

❌ Habilidades limitadas para proyectos complejos de ciencia de datos.

✅ Los informes y paneles se pueden compartir fácilmente con otros.


Cuadro es un excelente software de análisis y visualización de datos que a menudo se usa en equipos más grandes debido a su costo. Puede crear paneles de estilo de presentación hermosos e intuitivos que pueden resaltar varios aspectos de sus datos. Sin embargo, ciertamente no es una herramienta de trabajo, ya que está más especializada en las etapas de informes y no en las etapas inicial e intermedia de un proyecto de datos.



Pensamientos finales

Nuestra encuesta mostró que Python llegó a la cima de las opciones dadas para herramientas de ciencia de datos. Dada su versatilidad, tanto dentro como fuera del campo de la ciencia de datos, esto no fue una sorpresa. Python se promociona como un lenguaje de programación fácil de aprender. Seamos honestos, si eres un completo principiante en la codificación de computadoras, no será " fácil " al principio, pero con la práctica, eventualmente se convertirá en una segunda naturaleza para ti.



Comparta sus pensamientos en los comentarios y esté atento a otras encuestas de HackerNoon para participar.