Los profesionales del aprendizaje por refuerzo (RL) han producido una serie de excelentes tutoriales. La mayoría, sin embargo, describe la RL en términos de ecuaciones matemáticas y diagramas abstractos. Nos gusta pensar en el campo desde una perspectiva diferente. RL en sí está inspirado en cómo aprenden los animales, entonces, ¿por qué no traducir la maquinaria subyacente de RL de nuevo en los fenómenos naturales que están diseñados para imitar? Los humanos aprenden mejor a través de las historias.
Esta es una historia sobre el modelo Actor Advantage Critical (A2C). Los modelos Actor-Critic son una forma popular de modelo Policy Gradient, que en sí mismo es un algoritmo RL estándar. Si entiendes el A2C, entiendes la RL profunda.
Una vez que haya ganado una intuición para el A2C, consulte:
Ilustraciones de @embermarke