O mundo dos dados mudou drasticamente na última década. Os bancos de dados tradicionais, que foram projetados para armazenar informações em um formato estruturado, evoluíram para enormes armazéns de dados não estruturados que ficam em vários servidores em diferentes locais. Não muito tempo atrás, estávamos acostumados a ver sistemas monolíticos dominados por gigantes, como Oracle e IBM. Se você é um analista ou usuário empresarial que precisa de acesso a esse tipo de dados — e quem não precisa? — isso significava sistemas lentos que eram incrivelmente difíceis de gerenciar.
A crescente complexidade dos sistemas eventualmente levou à necessidade de pilhas de software modernas que pudessem ajudar as organizações a executar aplicativos complexos enquanto gerenciavam para manter o custo-benefício. O movimento de código aberto ajudou nisso, diminuindo drasticamente o custo de reunir aplicativos complexos, como o Elastic Search para pesquisa de texto completo e o PyTorch para modelagem. O empacotamento robusto e as operações do software melhoraram a usabilidade, a estabilidade e a economia do sistema.
O Modern Data Stack (MDS), que teve muita tração na última década, baseia-se no movimento de código aberto e é uma coleção de ideias, ferramentas e metodologias destinadas a construir a pilha de dados corporativos.
Na década de 2010, vimos uma rápida adoção de ferramentas de software livre no MDS. No entanto, depois de seu sucesso inicial, muitas iniciativas das organizações em relação a isso enfrentaram desafios quando se tratava de escalá-las:
Os pontos 1 e 2 têm desempenhado um papel importante em aumentar os níveis de estresse na indústria e também limitar o talento disponível para adotar e usar tecnologias. Vimos uma tendência semelhante no espaço DevOps, com a oferta de talentos de desenvolvimento não atendendo à demanda por novos serviços digitais. Tyler Jewell, da Dell Capital, tem falado bastante sobre esse problema - o que tem levado a um alto esgotamento, e o tempo médio de carreira de um desenvolvedor profissional é inferior a 20 anos. Ele postou recentemente um tópico onde mergulhou fundo na complexidade do cenário liderado por desenvolvedores, e não podemos deixar de notar vários paralelos entre o que ele afirma e o espaço MLOps.
Os pontos 3 e 4 destacam a situação do pessoal de dados de hoje – se resolver problemas não bastasse, eles acabam gastando mais tempo tentando descobrir “como” eles podem proceder e resolver problemas sem serem capazes de pensar muito sobre o que precisa ser feito, ou o resultado esperado.
Estamos vendo uma mudança nas ferramentas de dados usadas pelas organizações, impulsionadas por um maior reconhecimento de que muitas delas não têm escolha a não ser confiar em fornecedores terceirizados para suas necessidades de infraestrutura. Isso não se deve apenas a restrições orçamentárias, mas também a outras restrições, como segurança e proveniência dos dados.
Além disso, há uma demanda crescente por processos automatizados que permitem que as empresas migrem facilmente as cargas de trabalho de um provedor para outro sem interromper as operações ou causar tempo de inatividade. Estamos vendo os efeitos disso em setores como serviços financeiros, onde o gerenciamento de dados costuma ser crítico para o sucesso (por exemplo, agências de classificação de crédito).
Como resultado de tudo isso, bem como dos desafios listados acima, houve vários desenvolvimentos na comunidade:
A consolidação de ferramentas e plataformas, desenvolvimentos de plataformas mais simples e o uso de serviços gerenciados estão acontecendo em todo o setor. Isso decorre da necessidade de as empresas lidarem com a complexidade. É um momento emocionante para fazer parte deste espaço e mal posso esperar para ver como a paisagem evolui ao longo do ano.
Na Scribble Data, (a empresa que cofundei), estamos muito cientes dessa evolução conforme ela está acontecendo. Nós nos concentramos em um problema específico - engenharia de recursos para análises avançadas e casos de uso de ciência de dados. Esse espaço de problemas tem crescido constantemente em termos de importância e evoluiu de maneira consistente com os pontos acima. Com o mix certo de tecnologia e foco na solução, é possível alinhar o valor do produto aos casos de uso, ao mesmo tempo em que atinge um tempo de valorização (TTV) 5 vezes mais rápido para cada caso de uso.
Também publicado aqui