paint-brush
7 formas efectivas de lidiar con un pequeño conjunto de datosby@kate-koidan
28,345
28,345

7 formas efectivas de lidiar con un pequeño conjunto de datos

Kateryna Koidan5m2019/08/26
Read on Terminal Reader
Read this story w/o Javascript
tldt arrow
ES

Los modelos entrenados en un pequeño número de observaciones tienden a sobreajustarse y producir resultados inexactos. Aprenda a evitar el sobreajuste y obtenga predicciones precisas incluso si los datos disponibles son escasos. Eliminar el impacto de los valores atípicos de los datos es esencial para obtener un modelo sensato con un conjunto de datos pequeño. Las 7 formas efectivas de lidiar con un conjunto de datos pequeño incluyen: elegir modelos simples, seleccionar características relevantes, combinar varios modelos, combinar diferentes modelos y usar técnicas de regularización para mantener un modelo más conservador. Por ejemplo, la regresión logística es un modelo lineal simple con un número limitado de pesos.

Company Mentioned

Mention Thumbnail
featured image - 7 formas efectivas de lidiar con un pequeño conjunto de datos
Kateryna Koidan HackerNoon profile picture

En un entorno del mundo real, a menudo solo tiene un pequeño conjunto de datos con el que trabajar. Los modelos entrenados en un pequeño número de observaciones tienden a sobreajustarse y producir resultados inexactos. Aprenda a evitar el sobreajuste y obtenga predicciones precisas incluso si los datos disponibles son escasos.

Big data y ciencia de datos son conceptos que a menudo se escuchan juntos. Se cree que hoy en día hay grandes cantidades de datos y que la ciencia de datos puede extraer información valiosa de todos estos terabytes de información. De hecho, ¡puede!

Sin embargo, en un escenario práctico, a menudo tendrá datos limitados para resolver un problema. La recopilación de un gran conjunto de datos puede ser prohibitivamente costosa o simplemente imposible (p. ej., solo tener registros de un cierto período de tiempo cuando se realiza un análisis de series temporales). Como resultado, a menudo no hay más remedio que trabajar con un pequeño conjunto de datos, tratando de obtener predicciones tan precisas como sea posible.

En este artículo, abordaremos brevemente los problemas que surgen cuando se trabaja con un conjunto de datos pequeño. Luego, discutiremos las técnicas más efectivas para superar estos problemas.

Compensación de sesgo-varianza

En pocas palabras, cuando busca un modelo perfecto para explicar sus datos, está equilibrando el sesgo y la varianza.

El sesgo es la diferencia entre la predicción del modelo y el valor real. Los modelos con un alto sesgo simplifican en exceso la relación entre los predictores y una variable de destino y demuestran un alto error tanto en los datos de entrenamiento como de prueba.

La varianza refleja la variabilidad de la predicción del modelo. Los modelos con una varianza alta prestan demasiada atención a los datos de entrenamiento y no generalizan bien a un conjunto de datos de prueba. Como resultado, estos modelos muestran un error muy bajo en un conjunto de entrenamiento y un error muy alto en un conjunto de prueba.

Sobreajuste frente a ajuste insuficiente frente a buen equilibrio ( fuente )

Los modelos con bajo sesgo y alta varianza sobreajustan los datos, mientras que los modelos con alto sesgo y baja varianza se ajustan por debajo de los datos.

Es más probable que los modelos entrenados en un conjunto de datos pequeño vean patrones que no existen, lo que da como resultado una variación alta y un error muy alto en un conjunto de prueba. Estos son los signos comunes de sobreajuste. Por lo tanto, su objetivo principal cuando trabaja con conjuntos de datos pequeños es evitar el sobreajuste.

¿Cómo haces esto?

Técnicas para superar el sobreajuste con pequeños conjuntos de datos

Ahora analizaremos las siete técnicas más útiles para evitar el sobreajuste cuando se trabaja con conjuntos de datos pequeños.

1. Elija modelos simples. Los modelos complejos con muchos parámetros son más propensos al sobreajuste:

  • Si está entrenando un clasificador, considere comenzar con la regresión logística.
  • Si está entrenando un modelo para predecir un valor determinado, considere un modelo lineal simple con una cantidad limitada de pesos.
  • Para modelos basados en árboles, limite la profundidad máxima.
  • Use técnicas de regularización para mantener un modelo más conservador.

Con datos escasos, su objetivo es limitar la capacidad del modelo para ver patrones y relaciones inexistentes. Esto significa que desea limitar la cantidad de pesos y parámetros y descartar todos los modelos que impliquen interacciones de características o no linealidad. También tenga en cuenta que, según la investigación , algunos clasificadores pueden ser mejores para manejar conjuntos de datos pequeños.

2. Eliminar valores atípicos de los datos. Cuando se utiliza un conjunto de datos pequeño, los valores atípicos pueden tener un gran impacto en el modelo. Por lo tanto, cuando trabaje con datos escasos, deberá identificar y eliminar los valores atípicos. Otro enfoque puede ser el uso de técnicas que sean resistentes a los valores atípicos, como la regresión por cuantiles . Eliminar el impacto de los valores atípicos es esencial para obtener un modelo sensato con un conjunto de datos pequeño.

3. Seleccione las características relevantes. Por lo general, la selección explícita de funciones no es el mejor enfoque, pero cuando los datos son limitados, este puede ser un paso esencial. Es difícil evitar el sobreajuste con una pequeña cantidad de observaciones y una gran cantidad de predictores. Existen varios enfoques para la selección de características, incluido el análisis de correlación con una variable objetivo, el análisis de importancia y la eliminación recursiva. También vale la pena señalar que la selección de características siempre se beneficiará de la experiencia en el dominio. Por lo tanto, si no está familiarizado con el tema, busque un experto en el dominio para analizar el proceso de selección de funciones.

4. Combina varios modelos . Cuando combina los resultados de más de un modelo, puede obtener predicciones mucho más precisas. Por ejemplo, una predicción final calculada como un promedio ponderado de las predicciones de varios modelos individuales tendrá una varianza significativamente menor y una generalización mejorada en comparación con las predicciones de cada modelo individual. Además, puede combinar predicciones de diferentes modelos o del mismo modelo usando diferentes valores de hiperparámetros.

Combinando predicciones de varios modelos ( fuente )

5. Confíe en intervalos de confianza en lugar de estimaciones puntuales. Suele ser una buena idea estimar intervalos de confianza para su predicción además de la predicción en sí. Esto se vuelve especialmente importante cuando trabaja con un conjunto de datos pequeño. Entonces, en el análisis de regresión, asegúrese de estimar un intervalo de confianza del 95%. Si está resolviendo un problema de clasificación, calcule las probabilidades de sus predicciones de clase. Cuando tenga una mejor comprensión de la "confianza" de su modelo con respecto a sus predicciones, es menos probable que llegue a conclusiones erróneas basadas en los resultados del modelo.

6. Ampliar el conjunto de datos. Cuando los datos son realmente escasos o el conjunto de datos está muy desequilibrado, busque formas de ampliar el conjunto de datos. Por ejemplo, puedes:

  • Utilice muestras sintéticas. Este es un enfoque común para abordar la subrepresentación de ciertas clases en un conjunto de datos. Hay varios enfoques para aumentar un conjunto de datos con muestras sintéticas. Elija el que mejor se adapte a su tarea en particular.
  • Reúna datos de otras posibles fuentes. Por ejemplo, si está modelando la temperatura en una región específica, utilice también la información meteorológica de otras regiones, pero asigne una mayor ponderación a los puntos de datos de su región de interés.

7. Aplique el aprendizaje por transferencia cuando sea posible . Este enfoque también es un tipo de extensión de datos. Transferir el aprendizaje implica entrenar un modelo universal en grandes conjuntos de datos disponibles y luego ajustarlo en su pequeño conjunto de datos. Por ejemplo, si está trabajando en un problema de clasificación de imágenes, puede usar un modelo entrenado previamente en ImageNet , un gran conjunto de datos de imágenes, y luego ajustarlo para su problema específico. Es más probable que los modelos entrenados previamente produzcan predicciones precisas que los modelos entrenados desde cero utilizando datos limitados. El aprendizaje por transferencia funciona particularmente bien con técnicas flexibles de aprendizaje profundo.

¡Los datos pequeños son solo otro desafío que puede superar!

Muchos investigadores y profesionales creen que los datos pequeños son el futuro de la ciencia de datos. Simplemente no es factible tener grandes conjuntos de datos para cada tipo de problema. Siga estas pautas para superar los desafíos de un pequeño conjunto de datos:

Si carece de algunos de los conocimientos necesarios para manejar datos pequeños, hay algunos cursos excelentes disponibles en línea. Con Vertabelo Academy , puede aprender estadísticas básicas y análisis de datos a través de interesantes ejercicios interactivos. También hay otros cursos de ciencia de datos disponibles en línea, como por ejemplo de Coursera, edX, Udemy y Udacity. Sin embargo, a menudo carecen de interactividad y pueden ser demasiado desafiantes para las personas que no son de TI.

Descargo de responsabilidad: soy escritor de ciencia de datos en Vertabelo Academy.