paint-brush
7 estratégias para reduzir o custo de aquisição de dados de treinamentopor@futurebeeai
526 leituras
526 leituras

7 estratégias para reduzir o custo de aquisição de dados de treinamento

por FutureBeeAI9m2023/05/15
Read on Terminal Reader

Muito longo; Para ler

A aquisição de conjuntos de dados de treinamento de alta qualidade pode ser cara, mas existem várias estratégias que você pode usar para minimizar o custo. Comece definindo os requisitos do projeto e o público-alvo e, em seguida, considere usar conjuntos de dados existentes ou terceirizar para um serviço de coleta de dados. Você também pode aproveitar plataformas de crowdsourcing, parcerias de dados e técnicas de aumento de dados para reduzir o custo da coleta de dados. Ao seguir essas estratégias, você pode adquirir os dados de que precisa sem gastar muito e otimizar seus modelos de aprendizado de máquina para obter sucesso.
featured image - 7 estratégias para reduzir o custo de aquisição de dados de treinamento
FutureBeeAI HackerNoon profile picture
0-item

A coleta de dados para projetos de aprendizado de máquina pode ser uma verdadeira dor de cabeça. É demorado e tedioso, e nós mencionamos caro? É injusto que alguns projetos de aprendizado de máquina nem sequer comecem porque o custo da coleta de dados pode ser tão proibitivo.

Vamos examinar por que a aquisição de dados é tão cara, embora não devesse ser. O custo de mão de obra, infraestrutura, controle de qualidade, pré-processamento, limpeza de dados e considerações éticas são apenas alguns dos segmentos de custo associados a custos de coleta de dados.


Agora, definitivamente não é uma boa ideia pular nenhum desses segmentos, mas o problema é que você pode cortar custos tornando cada etapa de coleta de dados o mais eficiente possível.


Devemos garantir que nossa estratégia inclua mais do que apenas corte de custos; também precisamos garantir que os dados que estamos coletando sejam de alta qualidade!


Vamos começar examinando como priorizar a qualidade pode ajudar na coleta econômica de conjuntos de dados.

1. Priorizando a qualidade sobre a quantidade

Qualquer processo de desenvolvimento de modelo de aprendizado de máquina começa com a coleta de um conjunto de dados de treinamento. O processo de coleta de dados de treinamento não é uma ocorrência única; em vez disso, pode ser repetido repetidamente durante todo o período de desenvolvimento de uma solução de IA inovadora.


Ao testar nosso modelo, se a eficiência do modelo não estiver à altura em nenhum cenário, para treinar nosso modelo para esse cenário, precisamos coletar dados novos e mais específicos nesse caso.


Para reduzir o custo da coleta de dados, nossa estratégia deve ser reduzir essa coleta repetitiva de novos conjuntos de dados. Agora, a máxima "quanto mais, melhor" não pode ser aplicada à coleta de conjuntos de dados de treinamento sem prestar atenção ao qualidade do conjunto de dados .


Além disso, é óbvio que o tamanho do conjunto de dados tem um impacto direto no custo total da coleta de dados de treinamento.


Pode ser caro e demorado coletar muitos dados de treinamento, especialmente se os dados precisarem ser rotulados ou anotados. No entanto, a coleta de dados de alta qualidade, mesmo que seja um conjunto de dados menor, pode realmente ajudar a reduzir os custos gerais na coleta de dados de treinamento.


Em primeiro lugar, ao coletar dados de alta qualidade, podemos evitar a coleta de dados redundantes ou irrelevantes que podem não melhorar o desempenho do modelo de aprendizado de máquina. Como resultado, é mais barato coletar, armazenar e gerenciar grandes quantidades de dados.


Em segundo lugar, dados de alta qualidade podem ajudar a reduzir o tempo e o custo associados à limpeza e pré-processamento de dados. Limpar e preparar os dados para uso no modelo de aprendizado de máquina é mais fácil quando é confiável e consistente.


Em terceiro lugar, um conjunto de dados de qualidade pode melhorar o desempenho dos modelos de aprendizado de máquina, o que, por sua vez, diminui a necessidade de dados de treinamento adicionais.


Como resultado, não haverá necessidade de coletar dados extras para compensar as deficiências do modelo, o que pode ajudar a reduzir o custo geral da coleta de dados.


Em um caso ideal, devemos ser claros sobre o que esperamos em termos de qualidade com qualquer processo de coleta de dados e, em seguida, encontrar o equilíbrio ideal entre qualidade e quantidade reduzirá significativamente o custo geral.

2. Aproveite o Human-in-the-Loop

São as pessoas que tornam possível a coleta de dados. Dependendo do caso de uso, complexidade e volume, temos que integrar pessoas de vários lugares para coletar os dados. É para lá que vai a maior parte do dinheiro da coleta de dados.


Recrutar multidões qualificadas e conhecedoras de acordo com a tarefa em questão é o primeiro passo ao lidar com a multidão para adquirir um conjunto de dados de alta qualidade.


Se você deseja dados de conversação em alemão, deve se concentrar na integração de alemães nativos que já tenham experiência em projetos semelhantes.


Simplesmente porque eles têm experiência, eles podem compreender facilmente seus requisitos e podem ajudá-lo mais quando se trata de coletar conjuntos de dados de alta qualidade.


Além disso, todos os requisitos de conjunto de dados são distintos de alguma forma, e alguns requisitos de conjunto de dados podem ser particularmente complicados.


Nessas situações, é altamente recomendável dedicar algum tempo desenvolvendo diretrizes e materiais de treinamento apropriados para economizar tempo e dinheiro.


Pode ser benéfico ter instruções e materiais de treinamento no idioma nativo.


Se a diretriz for clara desde o início, treinar as pessoas nela pode ser fácil e aumentar a confiança nos provedores de dados. Isso também reduz as idas e vindas contínuas em caso de confusão sobre as diretrizes, o que acaba economizando mais tempo e dinheiro.


Definir expectativas claras pode melhorar a satisfação no trabalho dos colaboradores e diminuir a probabilidade de desistir. Isso reduz o custo e o tempo associados à localização e integração de novas pessoas.


Uma diretriz ideal deve ter critérios claros de aceitação e rejeição para os participantes, o que lhes dá uma compreensão clara do que fazer e do que não! Isso ajuda notavelmente a reduzir a rejeição e o retrabalho, o que acaba economizando tempo e dinheiro.

3. Adote o Transfer Learning

Um modelo pré-treinado é reutilizado para uma nova tarefa com menos dados de treinamento usando a técnica de aprendizado de máquina conhecida como aprendizado de transferência. O aprendizado por transferência pode reduzir o custo de coleta de conjuntos de dados de treinamento, diminuindo a quantidade de novos dados que precisam ser coletados e rotulados.


Para treinar um modelo do zero em modelos convencionais de aprendizado de máquina, é necessária uma quantidade significativa de dados rotulados. Mas com o aprendizado por transferência, os programadores podem começar com um modelo que já foi treinado e adquiriu recursos gerais de um conjunto de dados considerável.


Os desenvolvedores podem treinar de forma rápida e eficaz um modelo que se destaca na nova tarefa, ajustando o modelo treinado anteriormente em um conjunto de dados menor e específico da tarefa.


Digamos que uma empresa esteja criando um modelo de aprendizado de máquina para localizar objetos em imagens. Eles podem usar um modelo pré-treinado como ResNet ou VGG , que já aprendeu recursos gerais de um grande conjunto de dados de imagens, em vez de coletar e rotular um grande conjunto de dados de imagens do zero.


O modelo pré-treinado pode então ser ajustado usando um conjunto de dados menor de imagens relevantes para seu caso de uso, como imagens de equipamentos industriais ou médicos.


A empresa pode reduzir significativamente a quantidade de novos dados que devem ser coletados e rotulados enquanto ainda cria um modelo de aprendizado de máquina de alto nível, utilizando o aprendizado de transferência.


Aproveitar os conjuntos de dados existentes é outra maneira pela qual o aprendizado de transferência pode ajudar a reduzir o custo da coleta de dados de treinamento. Por exemplo, um desenvolvedor pode usar o conjunto de dados de um projeto anterior como ponto de partida para um novo projeto de aprendizado de máquina no qual está trabalhando em um campo relacionado.


Em conclusão, o aprendizado de transferência é um método eficaz para reduzir as despesas de obtenção de dados de treinamento no aprendizado de máquina.


Os desenvolvedores podem reduzir drasticamente a quantidade de novos dados que devem ser coletados e rotulados enquanto ainda produzem modelos de aprendizado de máquina de alta qualidade que se destacam em novas tarefas, utilizando modelos pré-treinados e conjuntos de dados existentes.


Tomar a decisão de implementar o transfer learning pode ser difícil e crucial porque existem inúmeras restrições, como


  • O ajuste fino pode não ser benéfico se um modelo pré-treinado já tiver sido criado para a tarefa que não é sua principal preocupação.


  • O superajuste pode ocorrer se o modelo tiver sido desenvolvido usando um conjunto de dados esparso ou não relacionado que seja relevante para sua tarefa.


  • O ajuste fino pode ser caro computacionalmente se o modelo pré-treinado for muito grande e exigir muitos recursos computacionais.

4. Explore o conjunto de dados pronto

Ao trabalhar com grandes conjuntos de dados, começar do zero em um novo conjunto de dados pode ser uma tarefa assustadora. Nessa situação, um conjunto de dados pré-fabricado ou pronto para uso (OTS) pode ser uma escolha sábia.


Encontrar um conjunto de dados de treinamento de código aberto que atenda às suas necessidades pode ajudar você a economizar tempo e dinheiro.


Mesmo que encontrar um conjunto de dados perfeitamente estruturado que atenda aos seus requisitos em código aberto seja extremamente raro, não há garantia de que será diverso e representativo o suficiente para dar suporte ao desenvolvimento de soluções confiáveis de IA.


Outra opção para adquirir conjuntos de dados prontos para uso é por meio de licenciamento comercial de organizações como a FutureBeeAI. O FutureBeeAI possui um pool de mais de 2.000 conjuntos de dados de treinamento, incluindo discurso , imagem, vídeo e conjuntos de dados de texto.


Há uma boa chance de já termos criado o conjunto de dados de que você precisa.


Esse conjunto de dados pré-fabricado não apenas reduz o tempo de coleta, mas também libera você do incômodo de gerenciar multidões e ajuda no dimensionamento de sua solução de IA.


A escolha de um conjunto de dados OTS pode simplificar a adesão à conformidade porque a empresa já tomou todas as precauções éticas necessárias.


Encontrar o parceiro certo e comprar o conjunto de dados pronto para uso apropriado pode ser uma solução muito econômica.

5. Automatize com ferramentas

De nossa discussão até este ponto, está claro que a única oportunidade de reduzir o custo da coleta de dados é encontrar o meio mais eficaz de realizar cada uma dessas tarefas menores, porém importantes. Nessa situação, o uso de ferramentas de ponta pode ser extremamente útil.


O custo da preparação dos dados é outro elemento no qual devemos nos concentrar. Para que os conjuntos de dados estejam prontos para implantação após a coleta, são necessários metadados adequados e informações básicas.


Agora, gerar manualmente esses metadados pode ser uma tarefa demorada e altamente propensa a erros. Você pode automatizar a criação de metadados e acelerar a coleta de conjuntos de dados estruturados usando ferramentas de coleta de dados.


Além disso, coletar dados sem as ferramentas adequadas resulta apenas em tempos de coleta mais longos, custos mais altos e coletores de dados frustrados. O uso de ferramentas de coleta de dados pode acelerar bastante o procedimento e reduzir o tempo total.


Isso facilita toda a tarefa de coleta de dados do participante e pode reduzir o orçamento geral!

6. Aumento de dados

O processo de "aumento de dados" envolve a aplicação de diferentes transformações aos dados existentes para produzir novos dados de treinamento. Ao permitir que os desenvolvedores produzam mais dados a partir de um conjunto de dados menor, essa técnica pode ajudar a reduzir o custo geral da coleta de dados para aprendizado de máquina.


Considere o caso em que você reuniu dados de fala para seu modelo ASR . Você pode usar o aumento de dados para expandir o tamanho geral do conjunto de dados de treinamento:


Injeção de ruído: Adicionando diferentes tipos de ruídos, como ruído branco, ruído rosa, ruído de balbucio, etc.


Simulações de ambiente: Diferentes ambientes de sala podem ser simulados adicionando a acústica da sala ao sinal de fala.


Pitch Shifting: Alterar o tom do sinal de fala aumentando ou diminuindo a frequência do sinal.


Perturbação de velocidade: alterando a velocidade do sinal de fala aumentando ou diminuindo a velocidade do sinal de áudio


Tais transformações nos permitem expandir o tamanho do conjunto de dados e adicionar mais dados para o treinamento de um modelo de aprendizado de máquina. Aqui também há economia de custos porque podemos transferir a rotulagem original.


Além de economizar tempo e dinheiro, diminui a necessidade de dados adicionais e melhora o desempenho do modelo com o conjunto de dados disponível.


O aumento de dados é uma ferramenta potente, mas também complicada. Se não for feito corretamente, há uma série de consequências. Um conjunto de dados com muitos pontos de dados semelhantes pode resultar de sua adoção agressiva, o que pode superajustar os modelos treinados no conjunto de dados.


Em poucas palavras, é uma tarefa que depende de expertise e deve ser abordada com cautela.

7. Considerações éticas e legais

No campo do aprendizado de máquina, as considerações legais em torno dos conjuntos de dados de treinamento são de importância crítica.


Desenvolver e implantar modelos de aprendizado de máquina com base em conjuntos de dados de treinamento discriminatórios, tendenciosos ou de origem imprópria pode ter sérias consequências legais, éticas e de reputação.


Várias leis de privacidade de dados, incluindo o Regulamento Geral de Proteção de Dados (GDPR) e a Lei de Privacidade do Consumidor da Califórnia (CCPA), regem a coleta e o uso de dados pessoais. Esses regulamentos fornecem instruções precisas para coletar, manipular e armazenar dados pessoais.


Pode haver penalidades e repercussões legais se essas regras forem desrespeitadas.


É essencial cumprir as leis de propriedade intelectual ao trabalhar com dados proprietários e protegidos por direitos autorais; não fazer isso pode resultar em ação legal. Essas disputas legais entre empresas e artistas de IA generativa recentemente vieram à tona.


Além disso, é crucial compilar um conjunto de dados que seja imparcial , justo para todos e representativo da população. Ações legais e danos à reputação podem ocorrer se o modelo for prejudicial ou discriminatório em relação a qualquer grupo específico.


Antes de coletar qualquer dado pessoal, é aconselhável revisar todos os requisitos de conformidade aos quais você deve aderir. Em uma coleta ideal, certifique-se de que o contribuidor de dados esteja ciente do tipo de dados que está compartilhando e quais usos potenciais existem para eles.


Os provedores de dados também devem estar cientes das consequências do pior caso. Para evitar mais problemas, certifique-se de que seu procedimento de coleta de dados seja consensual e inclua a obtenção do consentimento por escrito de cada provedor de dados. Lembre-se, perda evitada é dinheiro economizado!


Originalmente publicado em - futurebeeai.com