paint-brush
Una introducción al aprendizaje activoby@whatsai
806
806

Una introducción al aprendizaje activo

Louis Bouchard3m2023/06/18
Read on Terminal Reader

El aprendizaje activo tiene como objetivo optimizar la anotación de su conjunto de datos y entrenar el mejor modelo posible utilizando la menor cantidad de datos de entrenamiento. Es un enfoque de aprendizaje supervisado que involucra un proceso iterativo entre las predicciones de su modelo y sus datos. Al anotar menos imágenes en general, ahorra tiempo y dinero mientras logra un modelo optimizado.
featured image - Una introducción al aprendizaje activo
Louis Bouchard HackerNoon profile picture
0-item
1-item
2-item
3-item

En el mundo actual, tenemos acceso a una enorme cantidad de datos, gracias a potentes modelos de IA como ChatGPT , así como modelos de visión y otras tecnologías similares. Sin embargo, no se trata solo de la cantidad de datos en los que se basan estos modelos, sino también de la calidad. Crear un buen conjunto de datos rápidamente y a escala puede ser una tarea desafiante y costosa.


Ahí es donde entra el aprendizaje activo.

En términos simples, el aprendizaje activo tiene como objetivo optimizar la anotación de su conjunto de datos y entrenar el mejor modelo posible utilizando la menor cantidad de datos de entrenamiento.


Es un enfoque de aprendizaje supervisado que involucra un proceso iterativo entre las predicciones de su modelo y sus datos. En lugar de esperar un conjunto de datos completo, puede comenzar con un pequeño lote de datos anotados seleccionados y entrenar su modelo con ellos.


Luego, mediante el aprendizaje activo, puede aprovechar su modelo para etiquetar datos no vistos, evaluar la precisión de las predicciones y seleccionar el siguiente conjunto de datos para anotar en función de las funciones de adquisición.


Una ventaja del aprendizaje activo es que puede analizar el nivel de confianza de las predicciones de su modelo.


Si una predicción tiene poca confianza, el modelo solicitará imágenes adicionales de ese tipo para etiquetarlas. Por otro lado, las predicciones con alta confianza no requerirán más datos. Al anotar menos imágenes en general, ahorra tiempo y dinero mientras logra un modelo optimizado. El aprendizaje activo es un enfoque muy prometedor para trabajar con conjuntos de datos a gran escala.


Representación del aprendizaje activo. Imagen de Kumar et al.



Hay algunos puntos clave para recordar sobre el aprendizaje activo.

Primero, involucra la anotación humana, lo que le da control sobre la calidad de las predicciones de su modelo. No es una caja negra entrenada con millones de imágenes. Usted participa activamente en su desarrollo y ayuda a mejorar su desempeño. Este aspecto hace que el aprendizaje activo sea importante e interesante, aunque puede aumentar los costos en comparación con los enfoques no supervisados. Sin embargo, el tiempo que se ahorra en la capacitación y la implementación del modelo a menudo supera estos costos.


Además, puede utilizar herramientas de anotación automática y corregirlas manualmente, reduciendo aún más los gastos.


En el aprendizaje activo, tiene un conjunto de datos etiquetados en los que se entrena su modelo, mientras que el conjunto sin etiquetar contiene datos potenciales que aún no se han anotado. Un concepto crucial son las estrategias de consulta, que determinan qué datos etiquetar. Hay varios enfoques para encontrar los subconjuntos más informativos en la gran cantidad de datos sin etiquetar. Por ejemplo, el muestreo de incertidumbre implica probar su modelo en datos no etiquetados y seleccionar los ejemplos clasificados con menos confianza para la anotación.


Representación del aprendizaje activo con el enfoque Consulta por Comité. Imagen de Kumar et al.



Otra técnica de aprendizaje activo es Consulta por comité (QBC) , donde varios modelos, cada uno entrenado en un subconjunto diferente de datos etiquetados, forman un comité. Estos modelos tienen distintas perspectivas sobre el problema de la clasificación, al igual que las personas con diferentes experiencias tienen una comprensión diferente de ciertos conceptos. Los datos a anotar se seleccionan en base a la discrepancia entre los modelos del comité, lo que indica complejidad. Este proceso iterativo continúa a medida que los datos seleccionados se anotan continuamente.


Esta es solo una explicación básica del aprendizaje activo, que muestra un ejemplo de una estrategia de consulta.

Si está interesado, puedo brindarle más información o videos sobre otras estrategias de aprendizaje automático. Un ejemplo de la vida real de aprendizaje activo es cuando responde captchas en Google. Al hacerlo, los ayuda a identificar imágenes complejas y crear conjuntos de datos con el aporte colectivo de múltiples usuarios, asegurando tanto la calidad del conjunto de datos como la verificación humana. Entonces, la próxima vez que encuentre un captcha, ¡recuerde que está contribuyendo al progreso de los modelos de IA!


Para obtener más información y ver un ejemplo práctico usando una excelente herramienta desarrollada por mis amigos de Encord, vea el video: