Cómo Funciona El Aprendizaje Por Refuerzo en AlphaGo Zero

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 2

Cómo funciona el aprendizaje por refuerzo en AlphaGo Zero

AlphaGo Zero se entrena mediante el aprendizaje de refuerzo de auto-juegos. Combina una red neural y
la Búsqueda de Árbol de Montecarlo en un elegante marco de iteración de políticas para lograr un
aprendizaje estable.

La búsqueda de árboles en AlphaGo evaluaba las posiciones y seleccionaba los movimientos usando
redes neuronales profundas. Estas redes neuronales fueron entrenadas mediante el aprendizaje de
refuerzo de auto juego sin datos humanos solo con conocimiento de las reglas de juego.

. Esta red neural mejora la fuerza de la búsqueda del árbol, lo que resulta en una selección de
movimientos de mayor calidad y un auto juego más fuerte en la siguiente iteración

Una vez entrenadas, estas redes se combinaron con una búsqueda en el árbol de Monte Carlo (MCTS)
para proporcionar una búsqueda de lookahead, utilizando la red de políticas para reducir la búsqueda a
movimientos de alta probabilidad, y utilizando la red de valores (junto con los despliegues de Monte
Carlo utilizando una política de despliegue rápido) para evaluar las posiciones en el árbol

Por último, utiliza una búsqueda de árbol más sencilla que se basa en esta única red neuronal para
evaluar las posiciones y los movimientos de la muestra, sin realizar ningún despliegue de Monte Carlo.
Para lograr estos resultados, introducimos un nuevo algoritmo de aprendizaje de refuerzo que incorpora
la búsqueda de lookahead dentro del bucle de entrenamiento, lo que da como resultado una rápida
mejora y un aprendizaje preciso y estable. Otras diferencias técnicas en el algoritmo de búsqueda, el
procedimiento de entrenamiento y la arquitectura de la red se describen en Métodos.
El programa juega un juego s 1, ..., s T contra sí mismo. En cada posición s t, se ejecuta un MCTS α θ (ver
Fig. 2) utilizando la última red neuronal f θ. Los movimientos se seleccionan de acuerdo con las
probabilidades de búsqueda calculadas por el MCTS, a t ∼ π t. La posición terminal s T se puntúa de
acuerdo con las reglas del juego para calcular el ganador del juego z.

Figura 2 | MCTS en AlphaGo Zero.


a, Cada simulación atraviesa el árbol seleccionando el borde con el valor de acción máximo Q, más un
límite de confianza superior U que depende de una probabilidad de prioridad almacenada P y el
recuento de visitas N para ese borde (que se incrementa una vez atravesado).

b, El nodo hoja se expande y la posición asociada s es evaluada por la red neuronal (P (s, ·),
V (s)) = f θ (s); el vector de valores P se almacenan en los bordes salientes de s.

c, el valor de acción Q se actualiza para rastrear la media de todas las evaluaciones V en el subárbol
debajo de esa acción.

d, Una vez que se completa la búsqueda, se devuelven las probabilidades de búsqueda π,


proporcionales a N1 / τ, donde N es el recuento de visitas de cada movimiento desde el estado raíz y τ es
un parámetro que controla la temperatura

También podría gustarte