Cortesía: Kailash Ahirwar (Cofundador y CTO, Mate Labs ) Introducción: Comprender qué es la inteligencia artificial y aprender cómo el aprendizaje automático y el aprendizaje profundo la potencian son experiencias abrumadoras. Somos un grupo de ingenieros autodidactas que hemos pasado por esa experiencia y estamos compartiendo nuestra comprensión ( ) de ella y lo que nos ha ayudado en el camino, de forma simplificada, para que cualquiera que sea nuevo en este campo pueda fácilmente empezar a dar sentido a los tecnicismos de esta tecnología. a través de blogs Además, durante esta misión nuestra, hemos creado una para que cualquier persona pueda . plataforma crear modelos de aprendizaje automático y aprendizaje profundo sin escribir ni una sola línea de código : es la unidad básica de una red neuronal. Obtiene cierto número de entradas y un valor de sesgo. Cuando llega una señal (valor), se multiplica por un valor de peso. Si una neurona tiene 4 entradas, tiene 4 valores de peso que se pueden ajustar durante el tiempo de entrenamiento. Neurona (Nodo) Operaciones en una neurona de una red neuronal : conecta una neurona en una capa con otra neurona en otra capa o en la misma capa. Una conexión siempre tiene un valor de peso asociado. El objetivo del entrenamiento es actualizar este valor de peso para disminuir la pérdida (error). Conexiones : es una entrada adicional para las neuronas y siempre es 1, y tiene su propio peso de conexión. Esto asegura que incluso cuando todas las entradas sean ninguna (todos 0) habrá una activación en la neurona. Bias (Offset) : las funciones de activación se utilizan para introducir la no linealidad en las redes neuronales. Aplasta los valores en un rango más pequeño a saber. una función de activación sigmoidea aplasta los valores entre un rango de 0 a 1. Hay muchas funciones de activación que se utilizan en la industria del aprendizaje profundo y ReLU, SeLU y TanH son preferibles a la función de activación sigmoidea. . Función de activación (función de transferencia) En este artículo he explicado las diferentes funciones de activación disponibles Fuente de funciones de activación: http://prog3.com/sbdm/blog/cyh_24/article/details/50593400 Diseño básico de la red neuronal : esta es la primera capa de la red neuronal. Toma señales de entrada (valores) y las pasa a la siguiente capa. No aplica ninguna operación en las señales de entrada (valores) y no tiene pesos ni valores de sesgo asociados. En nuestra red tenemos 4 señales de entrada x1, x2, x3, x4. Capa de entrada las capas ocultas tienen neuronas (nodos) que aplican diferentes transformaciones a los datos de entrada. Una capa oculta es una colección de neuronas apiladas verticalmente (Representación). En nuestra imagen que se muestra a continuación, tenemos 5 capas ocultas. En nuestra red, la primera capa oculta tiene 4 neuronas (nodos), la segunda tiene 5 neuronas, la tercera tiene 6 neuronas, la cuarta tiene 4 y la quinta tiene 3 neuronas. La última capa oculta pasa valores a la capa de salida. Todas las neuronas en una capa oculta están conectadas a todas y cada una de las neuronas en la siguiente capa, por lo tanto, tenemos capas ocultas completamente conectadas. Capas ocultas: : esta capa es la última capa de la red y recibe información de la última capa oculta. Con esta capa podemos obtener el número deseado de valores y en un rango deseado. En esta red tenemos 3 neuronas en la capa de salida y genera y1, y2, y3. Capa de salida : es la forma de la matriz de entrada que pasamos a la capa de entrada. La capa de entrada de nuestra red tiene 4 neuronas y espera 4 valores de 1 muestra. La forma de entrada deseada para nuestra red es (1, 4, 1) si la alimentamos con una muestra a la vez. Si alimentamos 100 muestras, la forma de entrada será (100, 4, 1). Diferentes bibliotecas esperan formas en diferentes formatos. Forma de entrada : un peso representa la fuerza de la conexión entre las unidades. Si el peso del nodo 1 al nodo 2 tiene mayor magnitud, significa que la neurona 1 tiene mayor influencia sobre la neurona 2. Un peso resta importancia al valor de entrada. Los pesos cercanos a cero significan que cambiar esta entrada no cambiará la salida. Los pesos negativos significan que aumentar esta entrada disminuirá la salida. Un peso decide cuánta influencia tendrá la entrada en la salida. Pesos (parámetros) Propagación hacia adelante la propagación hacia adelante es un proceso de alimentación de valores de entrada a la red neuronal y obtener una salida que llamamos valor predicho. A veces nos referimos a la propagación directa como inferencia. Cuando alimentamos los valores de entrada a la primera capa de la red neuronal, se realiza sin ninguna operación. La segunda capa toma valores de la primera capa y aplica operaciones de multiplicación, suma y activación y pasa este valor a la siguiente capa. El mismo proceso se repite para las capas posteriores y finalmente obtenemos un valor de salida de la última capa. Propagación hacia adelante: Propagación hacia atrás : después de la propagación hacia adelante, obtenemos un valor de salida que es el . Para calcular el error, comparamos el valor predicho con el . Usamos una (mencionada a continuación) para calcular el . Luego calculamos la derivada del con respecto a todos y cada uno de los pesos de la red neuronal. La retropropagación utiliza la regla de la cadena del cálculo diferencial. En la regla de la cadena, primero calculamos las derivadas del con respecto a los de la última capa. A estos derivados los llamamos y usamos estos valores de para calcular los de la penúltima capa. Repetimos este proceso hasta obtener para todos y cada uno de los pesos de nuestra red neuronal. Luego restamos este valor de de para reducir el . De esta manera nos acercamos (descenso) a los (significa pérdida mínima). Propagación hacia atrás valor predicho valor de salida real función de pérdida valor del error valor del error valor de error valores de peso gradientes gradiente gradientes gradientes gradiente del valor peso valor de error Mínimos Locales : cuando entrenamos redes neuronales, generalmente usamos para optimizar los pesos. En cada iteración usamos retropropagación para calcular la derivada de la función de pérdida con respecto a cada peso y restarla de ese peso. La tasa de aprendizaje determina la rapidez o la lentitud con la que desea actualizar los de su (parámetro) . La tasa de aprendizaje debe ser lo suficientemente alta para que no tarde años en converger, y debe ser lo suficientemente baja para que encuentre los mínimos locales. Tasa de aprendizaje Gradient Descent valores peso Precisión y recuperación : la precisión se refiere a la proximidad de un valor medido a un valor estándar o conocido. Precisión : la precisión se refiere a la proximidad de dos o más medidas entre sí. Es la repetibilidad o reproducibilidad de la medición. Precisión : la recuperación se refiere a la fracción de instancias relevantes que se han recuperado sobre la cantidad total de instancias relevantes Recuperación (sensibilidad) : como dice Wikipedia: Matriz de confusión En el campo del y específicamente el problema de , una , también conocida como matriz de error, es un diseño de tabla específico que permite la visualización del rendimiento de un algoritmo, típicamente uno de (en el es suele llamarse ). Cada fila de la matriz representa las instancias de una clase prevista, mientras que cada columna representa las instancias de una clase real (o viceversa). El nombre proviene del hecho de que facilita ver si el sistema está confundiendo dos clases (es decir, comúnmente etiquetando erróneamente una como otra). aprendizaje automático la clasificación estadística matriz de confusión aprendizaje supervisado aprendizaje no supervisado matriz coincidente Matriz de confusión : la convergencia es cuando, a medida que avanzan las iteraciones, la salida se acerca cada vez más a un valor específico. Convergencia : se utiliza para superar el problema de sobreajuste. En la regularización, penalizamos nuestro término de pérdida agregando una norma L1 (LASSO) o _L_2 (Ridge) en el vector de peso (es el vector de los parámetros aprendidos en el algoritmo dado). Regularización w L(función de pérdida) + ( ) — aquí λ es su y N(w) es la norma L1 o L2 λN w término de regularización : la normalización de datos es el proceso de cambiar la escala de uno o más atributos al rango de 0 a 1. La normalización es una buena técnica para usar cuando no conoce la distribución de sus datos o cuando sabe que la distribución no es gaussiana (una campana). curva). Es bueno acelerar el proceso de aprendizaje. Normalización : cuando las activaciones de todos los nodos en una capa van a todos y cada uno de los nodos en la siguiente capa. Cuando todos los nodos en la capa Lth se conectan a todos los nodos en la capa (L+1)th, llamamos a estas capas capas completamente conectadas. Capas totalmente conectadas Capas totalmente conectadas pérdida calcula el error para un solo ejemplo de entrenamiento. La función de costo es el promedio de las funciones de pérdida de todo el conjunto de entrenamiento. Función de pérdida/función de costo: la función de ' : para el error cuadrático medio. mse' ' : para pérdida logarítmica binaria (logloss). binary_crossentropy' ' : para pérdida logarítmica multiclase (logloss). categorical_crossentropy' : el optimizador es una técnica de búsqueda que se utiliza para actualizar las ponderaciones en el modelo. Optimizadores de modelos : Stochastic Gradient Descent, con soporte para impulso. SGD : método de optimización de la tasa de aprendizaje adaptativo propuesto por Geoff Hinton. RMSprop : Estimación de momento adaptativo (Adam) que también utiliza tasas de aprendizaje adaptativo. Adam de rendimiento: las métricas de rendimiento se utilizan para medir el rendimiento de la red neuronal. La precisión, la pérdida, la precisión de la validación, la pérdida de la validación, el error absoluto medio, la precisión, la recuperación y la puntuación de f1 son algunas de las métricas de rendimiento. Métricas : el número de ejemplos de entrenamiento en un pase hacia adelante/hacia atrás. Cuanto mayor sea el tamaño del lote, más espacio de memoria necesitará. Tamaño del lote : es la cantidad de veces que el modelo se expone al conjunto de datos de entrenamiento. Épocas de entrenamiento Una = un pase hacia adelante y un pase hacia atrás de los ejemplos de entrenamiento. época todos Sobre En creado , una plataforma de aprendizaje automático, donde puede crear . permite que todos construyan y entrenen fácilmente modelos de Machine Learning, sin escribir una sola línea de código. Mate Labs , hemos Mateverse modelos de aprendizaje automático personalizados en minutos sin escribir una sola línea de código Nuestra plataforma Unamos nuestras manos. Comparta sus pensamientos con nosotros en . Twitter Cuéntanos si tienes alguna sugerencia nueva. Nuestros oídos y ojos siempre están abiertos para algo realmente emocionante.