paint-brush
RL intuitivo: Introducción a Advantage-Actor-Critic (A2C)por@rudygilman
87,829 lecturas
87,829 lecturas

RL intuitivo: Introducción a Advantage-Actor-Critic (A2C)

por Rudy Gilman2018/01/09
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Los profesionales del aprendizaje por refuerzo (RL) han producido una serie de excelentes tutoriales. La mayoría, sin embargo, describe la RL en términos de ecuaciones matemáticas y diagramas abstractos. Nos gusta pensar en el campo desde una perspectiva diferente. RL en sí está inspirado en cómo aprenden los animales, entonces, ¿por qué no traducir la maquinaria subyacente de RL de nuevo en los fenómenos naturales que están diseñados para imitar? Los humanos aprenden mejor a través de las historias.

People Mentioned

Mention Thumbnail

Company Mentioned

Mention Thumbnail
featured image - RL intuitivo: Introducción a Advantage-Actor-Critic (A2C)
Rudy Gilman HackerNoon profile picture

Los profesionales del aprendizaje por refuerzo (RL) han producido una serie de excelentes tutoriales. La mayoría, sin embargo, describe la RL en términos de ecuaciones matemáticas y diagramas abstractos. Nos gusta pensar en el campo desde una perspectiva diferente. RL en sí está inspirado en cómo aprenden los animales, entonces, ¿por qué no traducir la maquinaria subyacente de RL de nuevo en los fenómenos naturales que están diseñados para imitar? Los humanos aprenden mejor a través de las historias.

Esta es una historia sobre el modelo Actor Advantage Critical (A2C). Los modelos Actor-Critic son una forma popular de modelo Policy Gradient, que en sí mismo es un algoritmo RL estándar. Si entiendes el A2C, entiendes la RL profunda.

Una vez que haya ganado una intuición para el A2C, consulte:

Ilustraciones de @embermarke