Una introducción accesible a ML: no se requiere programación ni matemáticas. Al final de este tutorial, habrá implementado su primer algoritmo sin tocar una sola línea de código. Usarás técnicas de Machine Learning para clasificar datos reales usando funciones básicas en Excel. No es necesario ser un genio o un programador para comprender el aprendizaje automático. A pesar de las aplicaciones popularizadas de autos sin conductor, robots asesinos y reconocimiento facial, las bases del aprendizaje automático (ML) son bastante simples. Esta es una oportunidad para mojarse los pies y comprender el poder de estas nuevas técnicas.

Un descargo de responsabilidad sobre Excel

Todos los científicos de datos probablemente se encojan ante el título de este tutorial. Excel generalmente se considera una herramienta terrible para el análisis de datos serio. No se escala para procesar los grandes conjuntos de datos con los que tratamos en el mundo real y carece de algunas funciones clave de los lenguajes de programación y las bibliotecas de aprendizaje automático. Verá que muchas de las fórmulas proporcionadas en este tutorial son complicadas de acomodar a las deficiencias y peculiaridades de Excel. La razón por la que estoy usando Excel es para que esta introducción sea accesible para quienes no son programadores, ya que la mayoría de nosotros tenemos conocimientos básicos de la herramienta. Aquellos que opten por el aprendizaje automático y la ciencia de datos con más seriedad eventualmente actualizarán a Python o R, pero no hay nada de malo en comenzar de manera simple.

Nuestro objetivo final

El objetivo final de este tutorial es usar Machine Learning para construir un modelo de clasificación en un conjunto de datos reales usando una implementación del algoritmo k-vecinos más cercanos (KNN). No se abrume, analicemos lo que eso significa poco a poco.

Aprendizaje automático

Machine Learning es una colección de técnicas para optimizar modelos. En otras palabras, Machine Learning toma los modelos que hemos creado y usa datos del mundo real para "aprender" cómo ajustar los parámetros del modelo para que sea más útil en un escenario del mundo real basado en los datos de entrenamiento. En este tutorial, aplicaremos el aprendizaje automático a un modelo de clasificación. No te preocupes si no lo tienes completamente claro en este momento, al final del tutorial sabrás exactamente de lo que estoy hablando.

Conjunto de entrenamiento frente a conjunto de prueba

Los algoritmos de aprendizaje automático adaptan el modelo en función de un conjunto de datos de entrenamiento. Los datos de entrenamiento son un conjunto de datos que contiene todas las variables que tenemos disponibles, así como la clasificación correcta. Los conjuntos de entrenamiento se pueden desarrollar de varias maneras, pero en este tutorial usaremos un conjunto de entrenamiento que fue clasificado por un experto humano. Es importante recordar que los modelos de aprendizaje automático son tan buenos como los datos de entrenamiento. Cuanto más precisos sean tus datos de entrenamiento y cuantos más tengas, mejor. En otras palabras: basura adentro, basura afuera.

Un conjunto de prueba suele ser un subconjunto de los datos de entrenamiento en el sentido de que también contiene todas las variables y las clasificaciones correctas. La diferencia está en cómo lo usamos. Mientras que el conjunto de entrenamiento ayuda a desarrollar el modelo, el conjunto de prueba lo prueba en un escenario del mundo real y ve qué tan bien le va. Hay muchas formas complicadas de medir el error y probar modelos, pero mientras tenga la idea básica, podemos continuar.

Modelos de clasificación

Un modelo de clasificación es simplemente una herramienta matemática para determinar qué categoría o clase de algo está tratando en función de un conjunto de variables o entradas. Por ejemplo, si quisiera clasificar si un animal es un gato o un pez, podría usar variables como si el animal nada o no, si tiene pelaje o no y si come o no para determinar en qué clase cae. por debajo. Notarás dos cosas. En primer lugar, cuantas más variables tengas, mejor. Con más información, puede estar más seguro de que su clasificación es correcta.

En segundo lugar, algunas variables son más útiles o predictivas que otras. Tomemos el último ejemplo, ya sea que el animal coma o no. El observador casual sabe que tanto los peces como los gatos comen, por lo que tener este dato no es útil para determinar la clase del animal. El objetivo del aprendizaje automático en este contexto es crear el modelo de clasificación más útil dados los datos disponibles y eliminar las entradas que no mejoran la eficacia del modelo.

K Vecinos más cercanos

K-Nearest Neighbors (KNN) es un tipo específico de modelo de clasificación. La intuición es simple de entender. El modelo toma todos los datos disponibles sobre un punto de datos desconocido y los compara con un conjunto de datos de entrenamiento para determinar a qué puntos de ese conjunto de entrenamiento el punto desconocido es más similar o más cercano. La idea es que el punto de datos desconocido probablemente caiga en la misma clase que los puntos de datos conocidos a los que es más similar. KNN es simplemente una forma matemática de determinar la similitud entre dos puntos de datos.

El conjunto de datos de iris

Para este tutorial, usaremos un conjunto de datos clásico que se usa para enseñar el aprendizaje automático llamado Iris Data Set . Esta es una colección de datos sobre tres especies de la flor de Iris y cuatro datos sobre ellas: longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo.

El conjunto de datos ya ha sido preparado para facilitar el acceso a los principiantes. Puede descargar los datos en un formato de Excel compatible en este enlace haciendo clic en "descargar zip" en la parte superior derecha y abriendo el contenido en Excel.

Preparando nuestros datos

Como mencioné, este conjunto de datos está destinado a ser fácil de trabajar. Cada una de las primeras 4 columnas (AD) es una dimensión o característica de los datos. La quinta columna, E, es la variedad o clase de la flor. Cada fila es su propio registro o punto de datos. Como puede ver, tenemos 150 puntos de datos conocidos para trabajar.

Tenemos que tomar una decisión importante: cómo queremos segregar este conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba. Dado un conjunto de datos más grande, existen técnicas de optimización que podríamos usar para tomar esta decisión. Dado que este conjunto de datos es pequeño y está hecho para principiantes, solo lo dividiremos 70/30 como una cuestión de convención. En otras palabras, usaremos el 70% de los datos, o 105 puntos de datos como conjunto de entrenamiento y los 45 puntos de datos restantes como conjunto de prueba.

Ahora usaremos Excel para muestrear aleatoriamente el 70% de los datos. Primero, agregue una columna a su hoja llamada "Valor aleatorio" y use la función ALEATORIO() para seleccionar al azar un valor entre 0 y 1. Tenga en cuenta que la función ALEATORIO() volverá a seleccionar un nuevo número cada vez que su hoja vuelve a calcular

Para evitar eso, después de generar mis números, los copiaré (Ctrl+C) y luego los pegaré de forma especial como valores (Ctrl+Shift+V) para que permanezcan fijos. Comenzaremos en la celda F2 y arrastraremos hacia abajo hasta el último punto de datos.

= RAND ()

A continuación, los clasificaré del 1 al 150 usando la función RANK() de Excel, comenzando en la celda G2 como se muestra a continuación y arrastrándolos hasta el último punto de datos. Asegúrese de bloquear el marco de referencia como se muestra presionando F4 o agregando los signos $ manualmente o, de lo contrario, esta fórmula no funcionará como pretendemos.

= RANK ( F2 , $F$ 2: $F$ 15 )

Ahora tenemos un valor único entre 1 y 150 para cada punto de datos. Como queremos 105 valores para nuestro conjunto de entrenamiento, agregaremos una columna más y seleccionaremos los valores clasificados del 1 al 105 para nuestro conjunto de entrenamiento usando una función IF() rápida.

De lo contrario, agregaremos el valor a nuestro conjunto de prueba. Nuevamente, comenzaremos en H2 y lo arrastraremos hasta el último punto de datos.

= IF ( G2 <= 105 ,”Training”, “Test”)

En este punto, su conjunto de datos debe configurarse como la captura de pantalla. Recuerde que debido a que cada uno tomó una muestra aleatoria diferente, los valores específicos en las columnas FH se verán diferentes para usted. También debe tomarse un minuto para agregar filtros para nuestro próximo paso.

A continuación, dividiremos nuestros dos conjuntos de datos en sus propias hojas de trabajo (o pestañas) para mantener las cosas organizadas. Cree una nueva hoja de trabajo llamada "Conjunto de entrenamiento" y filtre los datos de "Entrenamiento" en la hoja de trabajo original. Copie estos datos junto con los encabezados y péguelos en su "Conjunto de entrenamiento". Debería tener 106 filas (105 valores + la fila del encabezado). Haga lo mismo con la hoja de trabajo "Conjunto de prueba". Debería tener 46 filas (45 valores + la fila del encabezado).

En este punto, puede deshacerse de la hoja de trabajo "Iris" y eliminar las columnas FH en las dos hojas de trabajo restantes, ya que ya hemos segregado nuestros datos. Finalmente, agregaré una columna de "ID" al comienzo de cada hoja de trabajo y etiquetaré cada punto de datos 1–105 y 1–45 respectivamente simplemente escribiendo el número (arrastrar hacia abajo el controlador de relleno será su amigo aquí para ahorrarle trabajo ).

Esto nos ayudará a hacer nuestros cálculos en las siguientes secciones. Asegúrese de que cada uno de sus conjuntos esté organizado como en el ejemplo a continuación.

Construyendo el modelo

Nuestros datos ahora están listos y podemos proceder a construir nuestro modelo. Como recordatorio, este modelo funciona comparando el punto de datos desconocido que deseamos clasificar con sus vecinos más cercanos o más similares. Para hacer eso, necesitaremos tomar cada punto en nuestro conjunto de prueba y calcular su distancia a cada punto en el conjunto de entrenamiento.

El concepto de distancia

La distancia es la forma en que los matemáticos determinan qué puntos son más similares en un espacio n-dimensional. La intuición es que cuanto menor es la distancia entre los puntos, más similares son. La mayoría de nosotros estamos acostumbrados a calcular la distancia en un espacio de 2 dimensiones, como un sistema de coordenadas x,y o usando la longitud y la latitud.

Hay varias formas de calcular la distancia, pero para mantenerlo simple, usaremos la distancia euclidiana. A continuación se muestra una visualización de la fórmula de la distancia euclidiana en un espacio bidimensional. Como puedes ver, la fórmula funciona creando un triángulo rectángulo entre dos puntos y determinando la longitud de la hipotenusa, el lado más largo del triángulo, como lo identifica la flecha.

Nuestro conjunto de datos es de 4 dimensiones. Es difícil para nosotros visualizar espacios más allá de 3 dimensiones, pero independientemente de si puedes visualizarlo o no, aún podemos calcular la distancia entre dos puntos de la misma manera, independientemente del número de dimensiones.

Aquí está la fórmula genérica para la distancia euclidiana:

En lenguaje sencillo, esto significa que la distancia euclidiana entre dos puntos, q y p, se puede determinar tomando cada dimensión para cada punto, comenzando con la primera dimensión, y elevando al cuadrado la diferencia entre ellos iterativamente hasta que lo hayas hecho por todas las dimensiones y sumamos las diferencias.

Luego sacamos la raíz cuadrada de esa suma y tenemos la distancia euclidiana. Suena complicado, pero verá que en realidad es bastante simple de usar una vez que regresemos a nuestros datos.

Calculando la distancia

En nuestro libro de trabajo, cree una nueva hoja de trabajo llamada "Distancia". Nuestro objetivo para esta hoja es crear una matriz de 45X105 de las distancias entre cada punto de datos en el conjunto de prueba y el conjunto de entrenamiento. En nuestro caso, cada fila corresponderá a un punto de datos en el conjunto de prueba y cada columna corresponderá a un punto de datos en el conjunto de entrenamiento. Comenzando en A2 y avanzando línea por línea hasta llegar a A46, llene cada celda con los números del 1 al 45.

Nuevamente, el controlador de relleno es útil aquí para que no tenga que escribir los números uno por uno. Ahora, trabajando desde B1 y luego columna por columna horizontalmente hasta llegar a DB1, llene cada columna con los números 1–105. Su matriz debe parecerse a la captura de pantalla a continuación, que muestra una pequeña parte de ella.

Antes de continuar, deberá convertir su matriz en una tabla para que podamos mantener las cosas organizadas. Seleccione su matriz completa y presione Ctrl + T y luego nombre la tabla "Distance_Table" y seleccione para crear la tabla con encabezados. A continuación, querrá nombrar su primera columna "ID de prueba" escribiéndola en la celda A1.

Ahora que nuestra tabla está configurada, podemos comenzar nuestros cálculos. Comenzaremos en la celda B2, que calculará la distancia entre el primer punto de nuestro Conjunto de entrenamiento (ID n.º 1) y el primer punto de nuestro Conjunto de prueba (ID n.º 1). Podemos aplicar la fórmula de la distancia euclidiana rápidamente usando la función BUSCARV en Excel para encontrar los valores de cada dimensión y luego realizar los cálculos según sea necesario.

Lo mejor es copiar y pegar esta fórmula en su barra de fórmulas en la celda B2, ya que maneja un par de peculiaridades de la función Tabla en Excel, pero asegúrese de comprender que todo lo que hace esta fórmula es aplicar la fórmula de distancia euclidiana que discutimos anteriormente. Como está escrito, puede arrastrarlo para llenar toda la tabla.

= SQRT ((( VLOOKUP ( NUMBERVALUE (Distance_Table[[#Headers],[ 1 ]]), 'Training Set'!$A$ 1: $F$ 106 , 2 , FALSE )- VLOOKUP (Distance_Table[@[Test ID] : [Test ID]], 'Test Set'!$A$ 1: $F$ 46 , 2 , FALSE )) ^ 2 +( VLOOKUP ( NUMBERVALUE (Distance_Table[[#Headers],[ 1 ]]), 'Training Set'!$A$ 1: $F$ 106 , 3 , FALSE )- VLOOKUP (Distance_Table[@[Test ID] : [Test ID]], 'Test Set'!$A$ 1: $F$ 46 , 3 , FALSE )) ^ 2 +( VLOOKUP ( NUMBERVALUE (Distance_Table[[#Headers],[ 1 ]]), 'Training Set'!$A$ 1: $F$ 106 , 4 , FALSE )- VLOOKUP (Distance_Table[@[Test ID] : [Test ID]], 'Test Set'!$A$ 1: $F$ 46 , 4 , FALSE )) ^ 2 +( VLOOKUP ( NUMBERVALUE (Distance_Table[[#Headers],[ 1 ]]), 'Training Set'!$A$ 1: $F$ 106 , 5 , FALSE )- VLOOKUP (Distance_Table[@[Test ID] : [Test ID]], 'Test Set'!$A$ 1: $F$ 46 , 5 , FALSE )) ^ 2 ))

Deberías terminar con algo como esto:

Encontrar vecinos más cercanos

En esta etapa, hemos calculado la distancia entre cada punto de nuestro conjunto de prueba y cada punto de nuestro conjunto de entrenamiento. Ahora necesitamos identificar los vecinos más cercanos a cada punto en nuestro conjunto de prueba. Cree una nueva hoja de trabajo llamada "Vecinos más cercanos" y, comenzando en A2, trabaje hacia abajo línea por línea para llenar las celdas con los números del 1 al 45 para que se correspondan con los puntos en nuestro Conjunto de prueba. Nuestras columnas no van a representar el conjunto de entrenamiento como lo han hecho en las hojas anteriores. En cambio, estos van a representar a los 6 vecinos más cercanos, comenzando con el primero más cercano y luego con el segundo más cercano y así sucesivamente. El primer vecino más cercano tiene la distancia más pequeña, el segundo vecino más cercano tiene la segunda distancia más pequeña y así sucesivamente. Tu hoja debería verse así:

Como hemos hecho antes, escribiremos una fórmula en la celda B2 que se puede arrastrar para completar el resto de nuestra matriz. Nuestro enfoque es identificar el valor más pequeño en nuestra fila correspondiente (2) en la tabla de distancia, encontrar el número de columna para ese valor y luego devolver el nombre de la columna, ya que eso nos dará la ID del valor en el Conjunto de entrenamiento.

Usaremos una combinación de las funciones Index y Match para lograr esto. Tenga en cuenta que podemos simplificar esta fórmula porque tuvimos la previsión de configurar nuestra matriz de distancia como una tabla en Excel y así podemos extraer fácilmente los encabezados.

= INDEX (Distance_Table[#Headers], MATCH ( SMALL (Distance!$ B2 :$ DB2 , 1 ), Distance! 2:2 , FALSE ))

Arrastra esta fórmula para llenar la fila superior de la matriz de tus vecinos más cercanos. Deberá ajustar manualmente el valor en negrita en la función SMALL() para representar al vecino que estamos buscando. Entonces, por ejemplo, para encontrar el segundo vecino más cercano, la fórmula sería la siguiente.

= INDEX (Distance_Table[#Headers], MATCH ( SMALL (Distance!$ B2 :$ DB2 , 2 ), Distance! 2:2 , FALSE ))

Recuerde que sus valores serán diferentes ya que su muestra aleatoria utilizada para formar el conjunto de prueba es diferente a la mía.

En esta etapa, generalmente me tomo un minuto para verificar una de las filas manualmente cuando sea posible solo para asegurarme de que mis fórmulas funcionen como se esperaba. A escala, querrá usar pruebas automatizadas, pero por ahora lo mantendremos simple.

Nos queda un último paso: necesitamos identificar la clasificación de cada uno de nuestros vecinos más cercanos. Volveremos a la fórmula en B2 y la modificaremos para realizar una BUSCARV del ID en el Conjunto de entrenamiento y devolver la clasificación. Luego lo arrastraremos para llenar la matriz.

= VLOOKUP ( NUMBERVALUE ( INDEX (Distance_Table[#Headers], MATCH ( SMALL (Distance!$ B2 :$ DB2 , 1 ), Distance! 2:2 , FALSE ))), 'Training Set'!$A$ 1: $F$ 106 , 6 , FALSE )

Dando un paso atrás

Demos un paso atrás y veamos lo que hemos logrado. Ahora ha identificado para cada punto en su conjunto de prueba la clasificación para los 6 vecinos más cercanos. Probablemente notará que para todos o casi todos sus puntos de datos, los 6 vecinos más cercanos caerán en la misma clasificación. Esto significa que nuestro conjunto de datos está muy agrupado. En nuestro caso, nuestros datos están muy agrupados por dos razones.

En primer lugar, como comentamos al comienzo del tutorial, el conjunto de datos está diseñado para que sea fácil trabajar con él. En segundo lugar, este es un conjunto de datos de baja dimensión ya que solo estamos trabajando con 4 dimensiones. A medida que maneja datos del mundo real, normalmente encontrará que están mucho menos agrupados, especialmente a medida que aumenta la cantidad de dimensiones. Cuanto menos agrupados estén sus datos, más grande deberá ser el conjunto de entrenamiento para construir un modelo útil.

Optimización con aprendizaje automático

Si nuestros datos siempre estuvieran agrupados de manera tan ordenada como el conjunto de datos de Iris, no habría necesidad de aprendizaje automático. Simplemente encontraríamos el vecino más cercano usando nuestra fórmula y la usaríamos para determinar la clasificación de cada punto de datos desconocido. Dado que este no suele ser el caso, el aprendizaje automático nos ayuda a predecir con mayor precisión la clasificación de un punto de datos desconocido al observar varios vecinos a la vez.

Pero, ¿a cuántos vecinos debemos mirar? Ahí es donde entra la "K" en K-vecinos más cercanos. K describe la cantidad de vecinos que consideraremos al predecir la clasificación de un punto de datos desconocido.

Muy pocos o demasiados vecinos

Intuitivamente, es importante entender por qué este problema es complicado. Es posible mirar muy pocos vecinos y también demasiados vecinos. Especialmente a medida que aumenta el número de dimensiones, es posible que el vecino más cercano no siempre tenga la clasificación correcta. Mirar muy pocos vecinos limita la cantidad de información que su modelo tiene disponible para tomar su determinación.

Considerar demasiados vecinos en realidad degradará la calidad de la información que su modelo usa como entrada. Esto se debe a que, a medida que se introducen más vecinos, también se introduce ruido en los datos. Solo piénselo: ¡no tendría sentido considerar a los 104 vecinos en nuestro ejemplo! Vea una representación visual de este concepto a continuación.

Por lo tanto, esto se convierte en un problema de optimización clásico en el que intentamos encontrar el valor de K que brinda la mayor cantidad de información sin que sea demasiado alto o demasiado bajo.

Uso de su equipo de prueba

Para este tutorial, usaremos un proceso muy simple de prueba y error para determinar el valor óptimo de K. Antes de continuar, recomiendo mirar la hoja de trabajo de Vecinos más cercanos y adivinar cuál podría ser el mejor valor de k, solo por diversión. ¡Pronto descubriremos si tienes razón!

Configuración del algoritmo

Un algoritmo es solo un conjunto de pasos para que una computadora los repita una y otra vez de acuerdo con un conjunto definido de reglas. En este caso, le diremos a la computadora que pruebe diferentes valores de K, calcule la tasa de error para cada uno usando nuestro conjunto de prueba y finalmente devuelva el valor que produce la tasa de error más baja.

Para hacer esto, necesitaremos crear una nueva hoja de trabajo llamada "Modelo KNN". Lo configuraremos de la siguiente manera, etiquetando las filas A4 a A48 con 1–45 para cada uno de nuestros puntos de datos de prueba.

Comencemos con el valor predicho en la Columna B. Necesitamos esta fórmula para ajustar según el valor K. En el caso de que el valor de K sea 1, la fórmula es simple, solo tomamos el vecino más cercano.

='Nearest Neighbors'! B2

En el caso de que el valor K sea mayor que 1, vamos a tomar el vecino más común que aparece. Si la aparición de vecinos se distribuye por igual, por ejemplo, si 3 de los vecinos son Setosa y 3 de los vecinos son Virginica cuando K=6, nos pondremos del lado de la clasificación del vecino más cercano.

La fórmula para K=2 sería la siguiente. Usamos IFERROR porque esta fórmula devuelve un error cuando hay dos vecinos que ocurren la misma cantidad de veces para el valor K dado.

= IFERROR ( INDEX ('Nearest Neighbors'! B2 : C2 , MODE ( MATCH ('Nearest Neighbors'! B2 : C2 ,'Nearest Neighbors'! B2 : C2 , 0 ))), 'Nearest Neighbors'! B2 )

Querrá usar la fórmula expandida a continuación en la celda B4 que le permite usar valores K hasta K = 6 inclusive. No debe preocuparse por los detalles de esta fórmula, simplemente cópiela y péguela. Por cierto, tener que usar fórmulas complicadas, meticulosas y difíciles de entender como estas es una de las limitaciones de Excel a las que me refería anteriormente.

Esto hubiera sido pan comido en Python. Tenga en cuenta que esta fórmula devolverá un error si no hay ningún valor en K o un valor que no esté entre 1 y 6. Debe copiar esta fórmula de la celda B4 a la Columna B.

= IFS ($B$ 1 = 1 , 'Nearest Neighbors'! B2 , $B$ 1 = 2 , IFERROR ( INDEX ('Nearest Neighbors'!$B$ 2: $C$ 2 , MODE ( MATCH ('Nearest Neighbors'!$B$ 2: $C$ 2 ,'Nearest Neighbors'!$B$ 2: $C$ 2 , 0 ))), 'Nearest Neighbors'! B2 ), $B$ 1 = 3 , IFERROR ( INDEX ('Nearest Neighbors'!$B$ 2: $D$ 2 , MODE ( MATCH ('Nearest Neighbors'!$B$ 2: $D$ 2 ,'Nearest Neighbors'!$B$ 2: $D$ 2 , 0 ))), 'Nearest Neighbors'! B2 ), $B$ 1 = 4 , IFERROR ( INDEX ('Nearest Neighbors'!$B$ 2: $E$ 2 , MODE ( MATCH ('Nearest Neighbors'!$B$ 2: $E$ 2 ,'Nearest Neighbors'!$B$ 2: $E$ 2 , 0 ))), 'Nearest Neighbors'! B2 ), $B$ 1 = 5 , IFERROR ( INDEX ('Nearest Neighbors'!$B$ 2: $F$ 2 , MODE ( MATCH ('Nearest Neighbors'!$B$ 2: $F$ 2 ,'Nearest Neighbors'!$B$ 2: $F$ 2 , 0 ))), 'Nearest Neighbors'! B2 ),$B$ 1 = 6 , IFERROR ( INDEX ('Nearest Neighbors'!$B$ 2: $G$ 2 , MODE ( MATCH ('Nearest Neighbors'!$B$ 2: $G$ 2 ,'Nearest Neighbors'!$B$ 2: $G$ 2 , 0 ))), 'Nearest Neighbors'! B2 ))

A continuación, queremos extraer la clasificación real y conocida de cada punto de prueba para que podamos determinar si nuestro modelo era correcto o no. Para esto usamos una BUSCARV rápida en la Columna C, comenzando en la celda C4 y arrastrando hacia abajo.

= VLOOKUP ( A4 , 'Test Set'!$A$ 1: $F$ 46 , 6 , FALSE )

Luego configuraremos una fórmula en la Columna D para devolver un 1 si la predicción fue incorrecta o un error, y un 0 si la predicción fue correcta. Comenzará en la celda D4 y arrastrará la fórmula hacia abajo.

= IF ( B4 = C4 , 0 , 1 )

Finalmente, calcularemos la tasa de error dividiendo la cantidad de errores por la cantidad total de puntos de datos, usando esta fórmula en la celda B2. Como cuestión de convención, formatearemos esto como un porcentaje.

= SUM ( D4 : D48 )/ COUNT ( D4 : D48 )

Ejecutando el Algoritmo

Ahora estamos listos para ejecutar nuestro algoritmo para diferentes valores de K. Debido a que solo estamos probando 6 valores, podríamos hacerlo a mano. Pero eso no sería divertido y, lo que es más importante, no escala. Deberá habilitar el complemento Solver para Excel siguiendo las instrucciones de este artículo antes de continuar .

Ahora, navegue a la cinta de datos y haga clic en el botón Solver. El botón del solucionador hace la prueba y el error por nosotros automáticamente de acuerdo con nuestras instrucciones. Tendrá un cuadro de diálogo de parámetros o instrucciones, que querrá configurar como se muestra a continuación.

Lo estamos configurando para que busque minimizar la tasa de error mientras prueba valores entre 1 y 6, solo prueba valores enteros .

Excel girará durante un minuto y es posible que vea parpadear algunos valores en su pantalla antes de obtener este cuadro de diálogo. Debe hacer clic en Aceptar para conservar la solución Solver.

Interpretación de la tasa de error y la solución del solucionador

Muchos algoritmos de optimización tienen múltiples soluciones debido al hecho de que los datos tienen múltiples mínimos o máximos. Esto sucedió en mi caso. De hecho, en mi caso particular, todos los valores enteros del 1 al 6 representan mínimos con una tasa de error de aproximadamente el 2%. Entonces, ¿qué hacemos ahora?

Algunas cosas pasan por mi cabeza. Primero, este conjunto de prueba no es muy bueno. El modelo no obtuvo ningún beneficio de optimización del conjunto de prueba y, como tal, probablemente volvería a hacer el conjunto de prueba y volvería a intentarlo para ver si obtengo resultados diferentes. También consideraría usar métodos de prueba más sofisticados, como la validación cruzada.

Con una tasa de error tan baja en mi conjunto de prueba, también empiezo a preocuparme por el ajuste excesivo. El ajuste excesivo es un problema que ocurre en el aprendizaje automático cuando un modelo se adapta demasiado a los matices de un conjunto de datos de entrenamiento o prueba en particular. Cuando un modelo está sobreajustado, no es tan predictivo o efectivo cuando encuentra nuevos datos en la naturaleza.

Por supuesto, con un conjunto de datos académicos como este, esperaríamos que nuestra tasa de error fuera bastante baja.

La siguiente consideración es qué valor elegir si he identificado varios mínimos. Si bien la prueba no fue efectiva en este ejemplo en particular, generalmente elegiría la cantidad más baja de vecinos que sea mínima para conservar los recursos informáticos. Mi modelo se ejecutará más rápido si tiene que considerar menos vecinos. No hará la diferencia con un pequeño conjunto de datos, pero decisiones como esta conservan recursos sustanciales a escala.

Conclusión

¡Prestigio! Aprendió los conceptos básicos del aprendizaje automático e implementó el algoritmo KNN, todo sin salir de los límites de Excel. Recuerde que Excel es simplemente una herramienta y que lo importante es que comprenda la intuición y los conceptos que hacen que este enfoque funcione.

Comprender los fundamentos lo ayudará a profundizar en la ciencia de datos y el aprendizaje automático y comenzar a desarrollar sus propios modelos.

Publicado anteriormente en https://towardsdatascience.com/machine-learning-made-simple-with-excel-1bffd7901502