paint-brush
Crecientes complejidades de la infraestructura de datos: implicaciones de costos y el camino a seguirpor@scribbledata
533 lecturas
533 lecturas

Crecientes complejidades de la infraestructura de datos: implicaciones de costos y el camino a seguir

por Venkata Pingali5m2022/08/04
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Comprender el panorama de la infraestructura de datos actual sería imposible sin profundizar en su viaje desde las bases de datos tradicionales hasta Modern Data Stack (MDS) tal como existe hoy, así como los desafíos, las complejidades y los cambios rápidos en el camino. En este artículo, analizamos cómo surgió MDS y cómo es un desafío escalar, con la sobrecarga cognitiva, la curva de aprendizaje pronunciada y el alto agotamiento que causa entre los equipos de datos. También observamos cómo esto está conduciendo a la consolidación de herramientas y plataformas, desarrollos de plataformas más simples, así como metodologías más nuevas que se enfocan más en generar confianza, vincularse a los resultados y simplemente ahogar el ruido creado por el aluvión de herramientas. ser presentado todos los días.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - Crecientes complejidades de la infraestructura de datos: implicaciones de costos y el camino a seguir
Venkata Pingali HackerNoon profile picture


El mundo de los datos ha cambiado drásticamente en la última década. Las bases de datos tradicionales, que fueron diseñadas para almacenar información en un formato estructurado, se han convertido en almacenes masivos de datos no estructurados que se encuentran en múltiples servidores en diferentes ubicaciones. No hace mucho tiempo, estábamos acostumbrados a ver sistemas monolíticos dominados por gigantes, como Oracle e IBM. Si es un analista o un usuario comercial que necesita acceso a este tipo de datos, ¿y quién no?, significaba sistemas lentos que eran increíblemente difíciles de administrar.

El nacimiento de una nueva pila de software

La creciente complejidad de los sistemas finalmente impulsó la necesidad de pilas de software modernas que pudieran ayudar a las organizaciones a ejecutar aplicaciones complejas mientras lograban mantener la rentabilidad. El movimiento de código abierto ayudó con esto, al reducir drásticamente el costo de ensamblar aplicaciones complejas, como Elastic Search para la búsqueda de texto completo y PyTorch para el modelado. El empaque y las operaciones sólidas del software mejoraron la usabilidad, la estabilidad y la economía del sistema.


Modern Data Stack (MDS), que ha tenido mucha tracción durante la última década, se basa en el movimiento de código abierto y es una colección de ideas, herramientas y metodologías destinadas a construir la pila de datos empresariales.

Desafíos en el escalado de MDS

En la década de 2010, vimos una rápida adopción de herramientas de código abierto dentro del MDS. Sin embargo, después de su éxito inicial, muchas iniciativas de organizaciones en torno a esto se encontraron con desafíos a la hora de escalarlas:


  1. La sobrecarga cognitiva debido a la cantidad de herramientas, configuraciones, metodologías e interacciones con las que las organizaciones y los equipos tenían que mantenerse al día fue abrumadora, lo que provocó agotamiento y altas tasas de abandono entre los talentos.
  2. La curva de aprendizaje asociada con estas tecnologías fue increíblemente empinada. Uno tiene que entender que la mayoría de estas herramientas de código abierto se crearon en organizaciones sofisticadas como Netflix, Google y Uber y no necesariamente se adaptan a las necesidades de las organizaciones que tienen implementaciones más pequeñas, una fracción de la escala.
  3. El ritmo de la innovación en el espacio también significó una vida útil más corta para las tecnologías más nuevas . Con el ritmo al que llegaban a la escena herramientas más nuevas, mejores, más rápidas y más eficientes, los ingenieros tenían que aprender y desaprender rápidamente.
  4. La comunidad de ciencia de datos tiene varios puntos de vista en conflicto, lo que resulta en una falta de claridad sobre qué enfoque se debe adoptar (lo que es mejor para su negocio). La mayoría de las veces, la única forma de superar este desafío es construyendo, lo que no solo es costoso sino que requiere mucho tiempo.
  5. Si ha estado siguiendo ciclos de exageración como Gartner, probablemente no le sorprenda saber que las inversiones en tecnología tienen una fecha de finalización (que llega mucho más rápido que probablemente hace una década). Tecnologías como Hadoop, NoSQL y Deep Learning, que se consideraban “candentes” no hace mucho tiempo, ya han superado el pico del ciclo de publicidad de Gartner.


Los puntos n.º 1 y n.º 2 han desempeñado un papel importante en aumentar los niveles de estrés en la industria y también en limitar el talento disponible para adoptar y utilizar tecnologías. Hemos visto una tendencia similar en el espacio DevOps, con la oferta de talento de desarrolladores que no satisface la demanda de nuevos servicios digitales. Tyler Jewell de Dell Capital ha hablado bastante sobre este problema, que ha llevado a un alto agotamiento y la duración promedio de la carrera de un desarrollador profesional es de menos de 20 años. Recientemente publicó un hilo en el que profundizó en la complejidad del panorama dirigido por desarrolladores, y no podemos evitar notar varios paralelismos entre lo que afirma y el espacio MLOps.


(Fuente: https://www.linkedin.com/feed/update/urn:li:share:6951971587176734720/)


Los puntos n.° 3 y n.° 4 resaltan la difícil situación de las personas de datos de hoy: si resolver problemas no fuera suficiente, terminan dedicando más tiempo a tratar de descubrir “cómo” pueden proceder y resolver problemas sin poder pensar mucho en qué. debe hacerse, o el resultado esperado.

Se viene un cambio…

Estamos viendo un cambio en las herramientas de datos utilizadas por las organizaciones, impulsado por un mayor reconocimiento de que muchas de ellas no tienen más remedio que confiar en proveedores externos para sus necesidades de infraestructura. Esto no solo se debe a restricciones presupuestarias, sino también a otras restricciones, como la seguridad y la procedencia de los datos.

Además, existe una mayor demanda de procesos automatizados que permitan a las empresas migrar fácilmente las cargas de trabajo de un proveedor a otro sin interrumpir las operaciones ni causar tiempos de inactividad. Estamos viendo los efectos de esto en industrias como los servicios financieros, donde la gestión de datos suele ser fundamental para el éxito (por ejemplo, las agencias de calificación crediticia).

Como resultado de todo esto, así como de los desafíos enumerados anteriormente, ha habido varios desarrollos en la comunidad:

  1. Las organizaciones enfatizan cada vez más la necesidad de generar confianza en sus datos , lo que da lugar a herramientas que se centran en la calidad y el gobierno de los datos.
  2. Cada vez se hace más hincapié en que las iniciativas de aprendizaje automático y ciencia de datos estén vinculadas a resultados y modelos comerciales que estén explícitamente alineados con casos de uso comerciales específicos .
  3. El costo y la complejidad cada vez mayores están dando como resultado la consolidación a través de extensiones de funciones, adquisiciones e integraciones. Snowflake, por ejemplo, está aumentando rápidamente su lista de socios para convertirse en una pila completa de aplicaciones analíticas.
  4. Teniendo en cuenta la complejidad posterior a la implementación del modelo, estamos viendo el surgimiento de herramientas como NannyML , que ayudan a estimar el rendimiento del modelo, detectar desviaciones y mejorar los modelos en producción a través de implementaciones iterativas. Estamos viendo esto como una forma para que las empresas cierren el ciclo entre el negocio, los datos y el modelo.
  5. Surgió una nueva organización, AI Infrastructure Alliance , para reunir los componentes básicos esenciales para las aplicaciones de inteligencia artificial. Han estado trabajando en la creación de una pila canónica para el aprendizaje automático , cuyo objetivo es ahogar el ruido creado debido a la introducción de una gran cantidad de herramientas que afirman ser las "más recientes y mejores", y ayudar a las empresas no tecnológicas a subir de nivel rápidamente. .
  6. La definición de MDS se está ampliando para incluir productos de datos, aplicaciones y otros elementos. Esto está haciendo MDS full-stack. Están surgiendo nuevos productos y servicios que dividen el espacio en función de los usuarios objetivo (por ejemplo, científicos de datos frente a analistas), la disponibilidad de habilidades y el tiempo de realización de resultados.
  7. La base de usuarios de MDS se está expandiendo para incluir los equipos de análisis y los usuarios comerciales. Esto da como resultado una experiencia de usuario mejorada, interfaces de código bajo y automatización.
  8. Y, por último, estamos viendo el surgimiento de enfoques como la " Pila posmoderna", que es esencialmente una deconstrucción de las pilas MDS y MLOps. Estos enfoques enfatizan la relevancia para el negocio, así como el consumo posterior de las funciones generadas para producir valor comercial.

Lo que esto significa

La consolidación de herramientas y plataformas, el desarrollo de plataformas más simples y el uso de servicios administrados están ocurriendo en toda la industria. Esto se debe a la necesidad de las empresas de hacer frente a la complejidad. Es un momento emocionante para ser parte de este espacio, y no puedo esperar a ver cómo evoluciona el paisaje a lo largo del año.


En Scribble Data (la empresa que cofundé) somos muy conscientes de esta evolución tal como está ocurriendo. Nos enfocamos en un problema específico: ingeniería de características para análisis avanzados y casos de uso de ciencia de datos. Este espacio de problemas ha crecido constantemente en términos de importancia y ha evolucionado de manera consistente con los puntos anteriores. Con la combinación de tecnología adecuada y el enfoque en la solución, es posible alinear el valor del producto con los casos de uso, mientras se logra un tiempo de valor (TTV) 5 veces más rápido para cada caso de uso.


También publicado aquí