El mundo de los datos ha cambiado drásticamente en la última década. Las bases de datos tradicionales, que fueron diseñadas para almacenar información en un formato estructurado, se han convertido en almacenes masivos de datos no estructurados que se encuentran en múltiples servidores en diferentes ubicaciones. No hace mucho tiempo, estábamos acostumbrados a ver sistemas monolíticos dominados por gigantes, como Oracle e IBM. Si es un analista o un usuario comercial que necesita acceso a este tipo de datos, ¿y quién no?, significaba sistemas lentos que eran increíblemente difíciles de administrar.
La creciente complejidad de los sistemas finalmente impulsó la necesidad de pilas de software modernas que pudieran ayudar a las organizaciones a ejecutar aplicaciones complejas mientras lograban mantener la rentabilidad. El movimiento de código abierto ayudó con esto, al reducir drásticamente el costo de ensamblar aplicaciones complejas, como Elastic Search para la búsqueda de texto completo y PyTorch para el modelado. El empaque y las operaciones sólidas del software mejoraron la usabilidad, la estabilidad y la economía del sistema.
Modern Data Stack (MDS), que ha tenido mucha tracción durante la última década, se basa en el movimiento de código abierto y es una colección de ideas, herramientas y metodologías destinadas a construir la pila de datos empresariales.
En la década de 2010, vimos una rápida adopción de herramientas de código abierto dentro del MDS. Sin embargo, después de su éxito inicial, muchas iniciativas de organizaciones en torno a esto se encontraron con desafíos a la hora de escalarlas:
Los puntos n.º 1 y n.º 2 han desempeñado un papel importante en aumentar los niveles de estrés en la industria y también en limitar el talento disponible para adoptar y utilizar tecnologías. Hemos visto una tendencia similar en el espacio DevOps, con la oferta de talento de desarrolladores que no satisface la demanda de nuevos servicios digitales. Tyler Jewell de Dell Capital ha hablado bastante sobre este problema, que ha llevado a un alto agotamiento y la duración promedio de la carrera de un desarrollador profesional es de menos de 20 años. Recientemente publicó un hilo en el que profundizó en la complejidad del panorama dirigido por desarrolladores, y no podemos evitar notar varios paralelismos entre lo que afirma y el espacio MLOps.
Los puntos n.° 3 y n.° 4 resaltan la difícil situación de las personas de datos de hoy: si resolver problemas no fuera suficiente, terminan dedicando más tiempo a tratar de descubrir “cómo” pueden proceder y resolver problemas sin poder pensar mucho en qué. debe hacerse, o el resultado esperado.
Estamos viendo un cambio en las herramientas de datos utilizadas por las organizaciones, impulsado por un mayor reconocimiento de que muchas de ellas no tienen más remedio que confiar en proveedores externos para sus necesidades de infraestructura. Esto no solo se debe a restricciones presupuestarias, sino también a otras restricciones, como la seguridad y la procedencia de los datos.
Además, existe una mayor demanda de procesos automatizados que permitan a las empresas migrar fácilmente las cargas de trabajo de un proveedor a otro sin interrumpir las operaciones ni causar tiempos de inactividad. Estamos viendo los efectos de esto en industrias como los servicios financieros, donde la gestión de datos suele ser fundamental para el éxito (por ejemplo, las agencias de calificación crediticia).
Como resultado de todo esto, así como de los desafíos enumerados anteriormente, ha habido varios desarrollos en la comunidad:
La consolidación de herramientas y plataformas, el desarrollo de plataformas más simples y el uso de servicios administrados están ocurriendo en toda la industria. Esto se debe a la necesidad de las empresas de hacer frente a la complejidad. Es un momento emocionante para ser parte de este espacio, y no puedo esperar a ver cómo evoluciona el paisaje a lo largo del año.
En Scribble Data (la empresa que cofundé) somos muy conscientes de esta evolución tal como está ocurriendo. Nos enfocamos en un problema específico: ingeniería de características para análisis avanzados y casos de uso de ciencia de datos. Este espacio de problemas ha crecido constantemente en términos de importancia y ha evolucionado de manera consistente con los puntos anteriores. Con la combinación de tecnología adecuada y el enfoque en la solución, es posible alinear el valor del producto con los casos de uso, mientras se logra un tiempo de valor (TTV) 5 veces más rápido para cada caso de uso.
También publicado aquí