paint-brush
Padronizando a documentação do conjunto de dados para melhorar os resultados do aprendizado de máquinapor@textmodels
1,654 leituras
1,654 leituras

Padronizando a documentação do conjunto de dados para melhorar os resultados do aprendizado de máquina

Muito longo; Para ler

As planilhas de dados para conjuntos de dados visam documentar a criação e o uso de conjuntos de dados de aprendizado de máquina para aumentar a transparência, a responsabilização e mitigar preconceitos nos modelos de IA.
featured image - Padronizando a documentação do conjunto de dados para melhorar os resultados do aprendizado de máquina
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) TIMNIT GEBRU, Preto em IA;

(2) JAMIE MORGENSTERN, Universidade de Washington;

(3) BRIANA VECCHIONE, Universidade Cornell;

(4) JENNIFER WORTMAN VAUGHAN, Pesquisa da Microsoft;

(5) HANNA WALLACH, Pesquisa da Microsoft;

(6) HAL DAUMÉ III, Microsoft Research; Universidade de Maryland;

(7) KATE CRAWFORD, Pesquisa da Microsoft.

Tabela de links

1. Introdução

1.1 Objetivos

2 Processo de Desenvolvimento

3 perguntas e fluxo de trabalho

3.1 Motivação

3.2 Composição

3.3 Processo de Cobrança

3.4 Pré-processamento/limpeza/rotulagem

3.5 Usos

3.6 Distribuição

3.7 Manutenção

4 Impacto e Desafios

Agradecimentos e Referências

Apêndice

1.1 Objetivos

As fichas de dados para conjuntos de dados destinam-se a atender às necessidades de dois grupos principais de partes interessadas: criadores de conjuntos de dados e consumidores de conjuntos de dados. Para os criadores de conjuntos de dados, o objetivo principal é incentivar uma reflexão cuidadosa sobre o processo de criação, distribuição e manutenção de um conjunto de dados, incluindo quaisquer suposições subjacentes, riscos ou danos potenciais e implicações de uso. Para os consumidores de conjuntos de dados, o objetivo principal é garantir que tenham as informações necessárias para tomar decisões informadas sobre a utilização de um conjunto de dados. A transparência por parte dos criadores de conjuntos de dados é necessária para que os consumidores dos conjuntos de dados estejam suficientemente bem informados para poderem selecionar conjuntos de dados apropriados para as tarefas escolhidas e evitar a utilização indevida não intencional.[1]


Para além destes dois principais grupos de partes interessadas, as fichas de dados para conjuntos de dados podem ser valiosas para os decisores políticos, defensores dos consumidores, jornalistas de investigação, indivíduos cujos dados estão incluídos em conjuntos de dados e indivíduos que podem ser afetados por modelos treinados ou avaliados utilizando conjuntos de dados. Servem também um objectivo secundário de facilitar uma maior reprodutibilidade dos resultados da aprendizagem automática: investigadores e profissionais sem acesso a um conjunto de dados poderão utilizar as informações contidas na sua ficha de dados para criar conjuntos de dados alternativos com características semelhantes.


Embora forneçamos um conjunto de perguntas destinadas a obter as informações que uma folha de dados para um conjunto de dados pode conter, essas perguntas não pretendem ser prescritivas. Na verdade, esperamos que as fichas técnicas variem necessariamente dependendo de fatores como o domínio ou a infraestrutura organizacional e os fluxos de trabalho existentes. Por exemplo, algumas perguntas são apropriadas para pesquisadores acadêmicos que divulgam publicamente conjuntos de dados com a finalidade de permitir pesquisas futuras, mas menos relevantes para equipes de produtos que criam conjuntos de dados internos para treinar modelos proprietários. Como outro exemplo, Bender e Friedman [2] descrevem uma proposta semelhante a folhas de dados para conjuntos de dados especificamente destinados a conjuntos de dados baseados em linguagem. As suas perguntas podem ser naturalmente integradas numa folha de dados para um conjunto de dados baseado em linguagem, conforme apropriado.


Ressaltamos que o processo de criação de uma ficha técnica não pretende ser automatizado. Embora os processos de documentação automatizados sejam convenientes, eles vão contra o nosso objetivo de incentivar os criadores de conjuntos de dados a refletir cuidadosamente sobre o processo de criação, distribuição e manutenção de um conjunto de dados.


Este artigo está disponível no arxiv sob licença CC 4.0.


[1] Observamos que, em alguns casos, as pessoas que criam uma planilha de dados para um conjunto de dados podem não ser os criadores do conjunto de dados, como foi o caso das planilhas de dados de exemplo que criamos como parte de nosso processo de desenvolvimento.