paint-brush
Longe vão aqueles dias de IAby@aibites
1,535
1,535

Longe vão aqueles dias de IA

A IA realmente evoluiu na última década – de um bebê a uma fera. Aqui eu resumo rapidamente o que mudou
featured image - Longe vão aqueles dias de IA
Shrinivasan Sankar HackerNoon profile picture

Esta semana, estou fazendo um pequeno desvio em meus artigos habituais que explicam conceitos de IA ou tutoriais de codificação. Sim, é um passeio filosófico e nostálgico pelo caminho que tive a sorte de trilhar o tempo todo.


Um dos raros privilégios de começar em uma área bem cedo é ver a área crescer como seu bebê. Quando comecei meu mestrado em Visão Computacional, há uma década, um amigo meu graduado em Ciência da Computação perguntou: “O que significa visão computacional?” É uma questão trivial hoje, com vídeos suficientes de tarefas de visão computacional como segmentação (veja abaixo) circulando pela Internet.

Resultado da segmentação de imagens – uma tarefa de visão computacional que estava em toda a Internet quando o aprendizado profundo decolou, há uma década.

Então, o que mudou na última década? Sempre há dois lados de uma moeda. Além disso, o crescimento pode ser bom e ruim.

Comunidade Fechada – Pequeno Era Lindo

Dizem que as pessoas na Islândia são de alguma forma relacionadas entre si e se alguém for além do seu primo em segundo grau, é bom casar com ele.


Da mesma forma, a comunidade de IA era muito unida. Longe vão os sentimentos de uma comunidade unida. Ao interagir com alguém da pesquisa, você geralmente sabia a qual grupo pertencia. De alguma forma, você se identificaria e respeitaria o trabalho deles ao ler e apreciar seu impacto na área.


À medida que o campo cresce incessantemente, fica cada vez mais difícil dizer que você conhece o trabalho de alguém e esquecê-lo. Existem muitos nomes novos e ramos novos que é até difícil de acompanhar.


Como outro exemplo, o PyTorch estava em sua infância. A comunidade do Slack era tão pequena e prestativa que os desenvolvedores do PyTorch responderam diretamente às perguntas que tínhamos sobre o uso da biblioteca. Isso incentivou aprender cada vez mais sobre o assunto. Hoje, a estrutura está muito madura e novas estruturas como LangChain e Llamaindex foram criadas. O foco está todo nos LLMs, em vez de qualquer outro ramo da IA.

Hardware de luxo

Naquela época, costumávamos treinar uma rede neural profunda em uma única GPU para criar algo impactante. A maioria dos trabalhos publicados em conferências importantes como CVPR, NeurIPS e ICML poderiam ser treinados e replicados em uma única máquina GPU de 8 GB ou, na pior das hipóteses, em uma única máquina com 4 GPUs em casos raros.

Uma imagem dos clusters de GPU mais recentes usados pela Tesla para IA (fonte: https://www.hpcwire.com/off-the-wire/tesla-to-roll-out-advanced-supercomputer )


Lembro-me vividamente de como fiquei feliz ao comprar uma GPU única com apenas 8 GB de RAM para participar de competições Kaggle. Algumas das soluções vencedoras do Kaggle Grandmasters treinaram modelos de aprendizado profundo em uma única máquina GPU em casa.


O mundo atual da IA precisa de um cluster de GPU para treinar modelos fundamentais. Mesmo o ajuste fino desses modelos requer GPUs de 24 GB que são feras, caras e acessíveis apenas para empresas com um “orçamento de IA”.

Demanda de qualificação

Aqueles foram dias em que o campo ainda não tinha o invólucro de IA. Os recrutadores receberam a estranha tarefa de caçar engenheiros de “aprendizado profundo”. Recrutadores e fundadores de start-ups procuravam especialistas em aprendizagem profunda em todos os canais. Era normal receber mensagens regulares no LinkedIn me pedindo para ingressar na equipe deles como engenheiro de aprendizado profundo.

Uma captura de tela de um anúncio de emprego para engenheiro de aprendizado de máquina postado há apenas 5 dias, recebendo mais de 100 candidatos!


A situação atual é que as vagas para “Engenheiro de aprendizado de máquina” recebem mais de 100 inscrições no LinkedIn em um dia de publicidade. Dê uma olhada na imagem acima se achar difícil de acreditar. Permanece a questão de saber até que ponto as competências do candidato são relevantes para as especificações do trabalho. Mas o mercado está saturado de competências – muito rapidamente!

Sub-habilidades - Operações e Arquitetura

Crescimento significa mais diversidade e oportunidades. Há novas funções como operações de ML, operações de LLM e arquitetos de ML surgindo. Longe vão os dias de arquivos minúsculos de modelo único (<1 GB). O crescimento dos modelos, tanto em tamanho como em capacidades, deu origem a novas competências na sua implementação e manutenção.


Além disso, o treinamento e a implantação de modelos estão sendo automatizados com ferramentas como o MLFLow. A infraestrutura em nuvem para treinamento precisa ser suficientemente sofisticada. Tudo isso deu origem a funções de tempo integral com responsabilidades dedicadas.

Tchau, engenheiro de ML, olá engenheiro de IA

A parte mais divertida de trabalhar com IA é escrever a arquitetura do modelo e treinar o modelo do zero usando nossos dados internos. Embora isso envolva muito o pré-processamento dos dados, treinar modelos e visualizar os resultados do treinamento costumava ser muito divertido. Existia/ainda existe uma função especializada para isso chamada Engenheiro de Aprendizado de Máquina (ML).


O desenvolvimento de modelos básicos de gigantes da tecnologia está a redefinir este papel. À medida que o tamanho dos modelos aumenta, os orçamentos de treinamento são enormes. Na verdade, o custo de treinamento do modelo LLama 2 foi de US$ 20 milhões para o Meta. É evidente que as start-ups ou organizações que tentam adotar a IA não desejam deitar fora esta quantia de dinheiro. Está agora estabelecido que os modelos básicos devem ser desenvolvidos pelos gigantes da tecnologia, com exceção de algumas empresas como Mistral e Anthropic.


Infelizmente, isso significa que a função de engenheiro de ML está sendo transferida para a função de engenheiro de IA. A função do engenheiro de ML consistia em desenvolver arquiteturas de modelos, treiná-las e avaliá-las. A nova função de engenheiro de IA envolve principalmente o desenvolvimento de APIs ou a invocação de APIs fornecidas por gigantes da tecnologia (OpenAI, Meta e Google) para gerar os modelos básicos.


Em casos raros, envolve o ajuste fino desses modelos básicos. Mas as empresas têm a opção de construir pipelines RAG ou usar os modelos básicos “no estado em que se encontram”, em vez de ajustá-los.

Conclusão

Para concluir, vejo isso como um amálgama lento das funções de engenharia de software e aprendizado de máquina. A linha entre engenheiros de software e especialistas em aprendizagem profunda está desaparecendo. Assim, nos próximos anos, os engenheiros de software serão engenheiros de IA que trabalharão em conjunto com modelos básicos, tanto para escrever código como para resolver as necessidades dos clientes.


Além disso, nos próximos anos, as empresas serão agrupadas em duas categorias – as empresas de produtos de IA e as empresas de serviços de IA. As empresas de produtos de IA seriam novamente OpenAI, Meta e Google para desenvolver modelos fundamentais. As empresas de serviços de IA forneceriam serviços de API ajustando ou desenvolvendo pipelines no estilo RAG em torno de modelos fundamentais de IA para atender seus clientes.


Por último, o aumento nas candidaturas a empregos indica um estouro iminente da bolha, como a bolha pontocom? Eu sinto isso, SIM. Mas vamos esperar e observar…

Gritar

Espero que tenha sido útil.


Se você gostou deste artigo, por que não me seguir no Twitter para atualizações de pesquisas, links para tutoriais em vídeo e novas ferramentas de IA dos principais laboratórios de IA?


Além disso, assine meu Canal do Youtube onde explico conceitos e artigos de IA visualmente.