paint-brush
Complexidades crescentes de infraestrutura de dados: implicações de custo e o caminho a seguirpor@pingaliscribble
598 leituras
598 leituras

Complexidades crescentes de infraestrutura de dados: implicações de custo e o caminho a seguir

por Venkata Pingali5m2022/08/04
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Compreender o cenário atual da infraestrutura de dados seria impossível sem aprofundar sua jornada dos bancos de dados tradicionais para o Modern Data Stack (MDS) como existe hoje, bem como os desafios, complexidades e mudanças rápidas ao longo do caminho. Neste artigo, analisamos como o MDS surgiu e como é difícil dimensioná-lo – com sobrecarga cognitiva, curva de aprendizado acentuada e alto esgotamento que causa entre as equipes de dados. Também analisamos como isso está levando à consolidação de ferramentas e plataformas, desenvolvimentos de plataformas mais simples, bem como metodologias mais recentes que são mais focadas em construir confiança, vincular-se a resultados e simplesmente abafar o ruído criado devido à enxurrada de ferramentas sendo apresentado todos os dias.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - Complexidades crescentes de infraestrutura de dados: implicações de custo e o caminho a seguir
Venkata Pingali HackerNoon profile picture


O mundo dos dados mudou drasticamente na última década. Os bancos de dados tradicionais, que foram projetados para armazenar informações em um formato estruturado, evoluíram para enormes armazéns de dados não estruturados que ficam em vários servidores em diferentes locais. Não muito tempo atrás, estávamos acostumados a ver sistemas monolíticos dominados por gigantes, como Oracle e IBM. Se você é um analista ou usuário empresarial que precisa de acesso a esse tipo de dados — e quem não precisa? — isso significava sistemas lentos que eram incrivelmente difíceis de gerenciar.

O nascimento de uma nova pilha de software

A crescente complexidade dos sistemas eventualmente levou à necessidade de pilhas de software modernas que pudessem ajudar as organizações a executar aplicativos complexos enquanto gerenciavam para manter o custo-benefício. O movimento de código aberto ajudou nisso, diminuindo drasticamente o custo de reunir aplicativos complexos, como o Elastic Search para pesquisa de texto completo e o PyTorch para modelagem. O empacotamento robusto e as operações do software melhoraram a usabilidade, a estabilidade e a economia do sistema.


O Modern Data Stack (MDS), que teve muita tração na última década, baseia-se no movimento de código aberto e é uma coleção de ideias, ferramentas e metodologias destinadas a construir a pilha de dados corporativos.

Desafios no escalonamento do MDS

Na década de 2010, vimos uma rápida adoção de ferramentas de software livre no MDS. No entanto, depois de seu sucesso inicial, muitas iniciativas das organizações em relação a isso enfrentaram desafios quando se tratava de escalá-las:


  1. A sobrecarga cognitiva devido ao número de ferramentas, configurações, metodologias e interações que as organizações e equipes tiveram que acompanhar foi avassaladora, levando ao esgotamento e altas taxas de atrito entre os talentos
  2. A curva de aprendizado associada a essas tecnologias foi incrivelmente íngreme. É preciso entender que a maioria dessas ferramentas de código aberto foi criada em organizações sofisticadas, como Netflix, Google e Uber, e não atende necessariamente às necessidades de organizações com implantações menores – uma fração da escala.
  3. O ritmo da inovação no espaço também significou tempos de vida mais curtos para tecnologias mais recentes . Com o ritmo em que ferramentas novas, melhores, mais rápidas e mais eficientes chegavam ao mercado, os engenheiros precisavam aprender e desaprender rapidamente.
  4. A comunidade de ciência de dados tem vários pontos de vista conflitantes, resultando em uma falta de clareza sobre qual abordagem deve ser adotada (o que é melhor para seus negócios). Na maioria das vezes, a única maneira de superar esse desafio é construindo, o que não é apenas caro, mas demorado.
  5. Se você acompanha ciclos de hype como o Gartner, provavelmente não é surpresa para você saber que os investimentos em tecnologia têm uma data final (que chega muito mais rápido do que provavelmente há uma década). Tecnologias como Hadoop, NoSQL e Deep Learning, que eram consideradas “quentes” há pouco tempo, já passaram do pico do ciclo de hype do Gartner.


Os pontos 1 e 2 têm desempenhado um papel importante em aumentar os níveis de estresse na indústria e também limitar o talento disponível para adotar e usar tecnologias. Vimos uma tendência semelhante no espaço DevOps, com a oferta de talentos de desenvolvimento não atendendo à demanda por novos serviços digitais. Tyler Jewell, da Dell Capital, tem falado bastante sobre esse problema - o que tem levado a um alto esgotamento, e o tempo médio de carreira de um desenvolvedor profissional é inferior a 20 anos. Ele postou recentemente um tópico onde mergulhou fundo na complexidade do cenário liderado por desenvolvedores, e não podemos deixar de notar vários paralelos entre o que ele afirma e o espaço MLOps.​


(Fonte: https://www.linkedin.com/feed/update/urn:li:share:6951971587176734720/)


Os pontos 3 e 4 destacam a situação do pessoal de dados de hoje – se resolver problemas não bastasse, eles acabam gastando mais tempo tentando descobrir “como” eles podem proceder e resolver problemas sem serem capazes de pensar muito sobre o que precisa ser feito, ou o resultado esperado.

Uma mudança está chegando…

Estamos vendo uma mudança nas ferramentas de dados usadas pelas organizações, impulsionadas por um maior reconhecimento de que muitas delas não têm escolha a não ser confiar em fornecedores terceirizados para suas necessidades de infraestrutura. Isso não se deve apenas a restrições orçamentárias, mas também a outras restrições, como segurança e proveniência dos dados.

Além disso, há uma demanda crescente por processos automatizados que permitem que as empresas migrem facilmente as cargas de trabalho de um provedor para outro sem interromper as operações ou causar tempo de inatividade. Estamos vendo os efeitos disso em setores como serviços financeiros, onde o gerenciamento de dados costuma ser crítico para o sucesso (por exemplo, agências de classificação de crédito).

Como resultado de tudo isso, bem como dos desafios listados acima, houve vários desenvolvimentos na comunidade:

  1. As organizações estão enfatizando cada vez mais a necessidade de construir confiança em seus dados , dando origem a ferramentas que focam na qualidade e governança de dados.
  2. Há uma ênfase crescente em iniciativas de aprendizado de máquina e ciência de dados vinculadas a resultados e modelos de negócios explicitamente alinhados a casos de uso de negócios específicos .
  3. O custo e a complexidade cada vez maiores estão resultando na consolidação por meio de extensões de recursos, aquisições e integrações. A Snowflake, por exemplo, está aumentando rapidamente sua lista de parceiros para se tornar uma pilha completa de aplicativos analíticos.
  4. Considerando a complexidade pós-implantação do modelo, estamos vendo o surgimento de ferramentas como NannyML , que ajudam a estimar o desempenho do modelo, detectar desvios e melhorar os modelos em produção por meio de implantações iterativas. Estamos vendo isso como uma forma de as empresas fecharem o ciclo entre o negócio, os dados e o modelo.
  5. Uma nova organização, AI Infrastructure Alliance , surgiu para reunir os blocos de construção essenciais para aplicativos de Inteligência Artificial. Eles estão trabalhando na construção de uma pilha canônica para aprendizado de máquina , que visa abafar o ruído criado devido à introdução de uma infinidade de ferramentas que afirmam ser as “mais recentes e melhores” e ajudar as empresas não tecnológicas a subir de nível rapidamente .
  6. A definição do MDS está sendo estendida para incluir produtos de dados, aplicativos e outros elementos. Isso está tornando o MDS full-stack. Estão surgindo novos produtos e serviços que cortam o espaço com base nos usuários-alvo (por exemplo, cientistas de dados versus analistas), disponibilidade de habilidades e tempo para a realização do resultado.
  7. A base de usuários do MDS está se expandindo para incluir as equipes analíticas e os usuários corporativos. Isso resulta em uma melhor experiência do usuário, interfaces de baixo código e automação.
  8. E, finalmente, estamos vendo o surgimento de abordagens como a “ pilha pós-moderna ”, que é essencialmente uma desconstrução das pilhas MDS e MLOps. Essas abordagens enfatizam a relevância para os negócios, bem como o consumo posterior dos recursos gerados para produzir valor comercial.

O que isto significa

A consolidação de ferramentas e plataformas, desenvolvimentos de plataformas mais simples e o uso de serviços gerenciados estão acontecendo em todo o setor. Isso decorre da necessidade de as empresas lidarem com a complexidade. É um momento emocionante para fazer parte deste espaço e mal posso esperar para ver como a paisagem evolui ao longo do ano.


Na Scribble Data, (a empresa que cofundei), estamos muito cientes dessa evolução conforme ela está acontecendo. Nós nos concentramos em um problema específico - engenharia de recursos para análises avançadas e casos de uso de ciência de dados. Esse espaço de problemas tem crescido constantemente em termos de importância e evoluiu de maneira consistente com os pontos acima. Com o mix certo de tecnologia e foco na solução, é possível alinhar o valor do produto aos casos de uso, ao mesmo tempo em que atinge um tempo de valorização (TTV) 5 vezes mais rápido para cada caso de uso.


Também publicado aqui