Los profesionales del aprendizaje por refuerzo (RL) han producido una serie de excelentes tutoriales. La mayoría, sin embargo, describe la RL en términos de ecuaciones matemáticas y diagramas abstractos. Nos gusta pensar en el campo desde una perspectiva diferente. RL en sí está inspirado en cómo aprenden los animales, entonces, ¿por qué no traducir la maquinaria subyacente de RL de nuevo en los fenómenos naturales que están diseñados para imitar? Los humanos aprenden mejor a través de las historias. Esta es una historia sobre el modelo Actor Advantage Critical (A2C). Los modelos Actor-Critic son una forma popular de modelo Policy Gradient, que en sí mismo es un algoritmo RL estándar. Si entiendes el A2C, entiendes la RL profunda. Una vez que haya ganado una intuición para el A2C, consulte: Nuestra del A2C (para el aprendizaje) o nuestra de potencia industrial basada en el modelo implementación de código simple versión PyTorch TensorFlow Baselines de OpenAI , , y el repositorio de para una inmersión profunda en RL Introducción a RL de Barto & Sutton el curso canónico de David Silver la descripción general de Yuxi Li GitHub de Denny Britz para una cobertura intuitiva y práctica del aprendizaje profundo en general, implementado en PyTorch El increíble curso de fast.ai Tutoriales de , implementados en TensorFlow. Arthur Juliani sobre RL Ilustraciones de @embermarke