Cómo Funciona El Aprendizaje Por Refuerzo en AlphaGo Zero

Cargado por

AlphaGo Zero se entrena mediante aprendizaje por refuerzo sin datos humanos, usando una red neuronal profunda para evaluar posiciones y seleccionar movimientos durante la búsqueda en el árbol de Monte Carlo, lo que mejora su fuerza a medida que se entrena de forma iterativa jugando contra sí mismo.

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Cómo Funciona El Aprendizaje Por Refuerzo en AlphaGo Zero

Cargado por

ARTURO ROQUE

0% encontró este documento útil (0 votos)

81 vistas2 páginas

Descripción original:

Título original

Cómo funciona el aprendizaje por refuerzo en AlphaGo Zero

Derechos de autor

Formatos disponibles

DOCX, PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Descargar como docx, pdf o txt

0% encontró este documento útil (0 votos)

81 vistas2 páginas

Cómo Funciona El Aprendizaje Por Refuerzo en AlphaGo Zero

Cargado por

ARTURO ROQUE

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Descargar como docx, pdf o txt

Saltar a página

Está en la página 1de 2

Buscar dentro del documento

Cómo funciona el aprendizaje por refuerzo en AlphaGo Zero

AlphaGo Zero se entrena mediante el aprendizaje de refuerzo de auto-juegos. Combina una red neural y
la Búsqueda de Árbol de Montecarlo en un elegante marco de iteración de políticas para lograr un
aprendizaje estable.

La búsqueda de árboles en AlphaGo evaluaba las posiciones y seleccionaba los movimientos usando
redes neuronales profundas. Estas redes neuronales fueron entrenadas mediante el aprendizaje de
refuerzo de auto juego sin datos humanos solo con conocimiento de las reglas de juego.

. Esta red neural mejora la fuerza de la búsqueda del árbol, lo que resulta en una selección de
movimientos de mayor calidad y un auto juego más fuerte en la siguiente iteración

Una vez entrenadas, estas redes se combinaron con una búsqueda en el árbol de Monte Carlo (MCTS)
para proporcionar una búsqueda de lookahead, utilizando la red de políticas para reducir la búsqueda a
movimientos de alta probabilidad, y utilizando la red de valores (junto con los despliegues de Monte
Carlo utilizando una política de despliegue rápido) para evaluar las posiciones en el árbol

Por último, utiliza una búsqueda de árbol más sencilla que se basa en esta única red neuronal para
evaluar las posiciones y los movimientos de la muestra, sin realizar ningún despliegue de Monte Carlo.
Para lograr estos resultados, introducimos un nuevo algoritmo de aprendizaje de refuerzo que incorpora
la búsqueda de lookahead dentro del bucle de entrenamiento, lo que da como resultado una rápida
mejora y un aprendizaje preciso y estable. Otras diferencias técnicas en el algoritmo de búsqueda, el
procedimiento de entrenamiento y la arquitectura de la red se describen en Métodos.
El programa juega un juego s 1, ..., s T contra sí mismo. En cada posición s t, se ejecuta un MCTS α θ (ver
Fig. 2) utilizando la última red neuronal f θ. Los movimientos se seleccionan de acuerdo con las
probabilidades de búsqueda calculadas por el MCTS, a t ∼ π t. La posición terminal s T se puntúa de
acuerdo con las reglas del juego para calcular el ganador del juego z.

Figura 2 | MCTS en AlphaGo Zero.

a, Cada simulación atraviesa el árbol seleccionando el borde con el valor de acción máximo Q, más un
límite de confianza superior U que depende de una probabilidad de prioridad almacenada P y el
recuento de visitas N para ese borde (que se incrementa una vez atravesado).

b, El nodo hoja se expande y la posición asociada s es evaluada por la red neuronal (P (s, ·),
V (s)) = f θ (s); el vector de valores P se almacenan en los bordes salientes de s.

c, el valor de acción Q se actualiza para rastrear la media de todas las evaluaciones V en el subárbol
debajo de esa acción.

d, Una vez que se completa la búsqueda, se devuelven las probabilidades de búsqueda π,

proporcionales a N1 / τ, donde N es el recuento de visitas de cada movimiento desde el estado raíz y τ es
un parámetro que controla la temperatura

También podría gustarte

Python Deep Learning: Introducción práctica con Keras y TensorFlow 2
De Everand
Python Deep Learning: Introducción práctica con Keras y TensorFlow 2
Jordi Torres
Calificación: 3.5 de 5 estrellas
3.5/5 (5)
Primer Semestre. - Guía Didáctica Del Estudiante. - Informática I
Documento212 páginas
Primer Semestre. - Guía Didáctica Del Estudiante. - Informática I
Nancy Apan
57% (7)
Inteligencia Artificial Adaptativa en Videojuegos Con Procesos Estocásticos
Documento45 páginas
Inteligencia Artificial Adaptativa en Videojuegos Con Procesos Estocásticos
Erwin Montes
100% (1)
El Problema Del Tres en Raya
Documento6 páginas
El Problema Del Tres en Raya
Charming Pilares Leon
Aún no hay calificaciones
TRABAJO2
Documento16 páginas
TRABAJO2
Cesar Crespo Rodríguez
Aún no hay calificaciones
Metodos de Busqueda para Juegos Humano Maquina
Documento7 páginas
Metodos de Busqueda para Juegos Humano Maquina
Pedro
Aún no hay calificaciones
Algoritmo MiniMax
Documento10 páginas
Algoritmo MiniMax
Bryancito Chumbes Lizarraga
Aún no hay calificaciones
Dipositivivas, Proyecto Michi
Documento11 páginas
Dipositivivas, Proyecto Michi
lightningdd
Aún no hay calificaciones
Practica AA
Documento3 páginas
Practica AA
Clara Cortizo
Aún no hay calificaciones
Respuestas de Simulación de Una Neurona Artificial
Documento6 páginas
Respuestas de Simulación de Una Neurona Artificial
diego ivan perea montealegre
Aún no hay calificaciones
Tema 6 (7) - Redes Neuronales
Documento12 páginas
Tema 6 (7) - Redes Neuronales
remarxtin
Aún no hay calificaciones
Algoritmo MiniMax
Documento23 páginas
Algoritmo MiniMax
Pedro Jose Ballestas Cañas
Aún no hay calificaciones
Métodos
Documento5 páginas
Métodos
Mauricio Cuevas Delgado
Aún no hay calificaciones
Conferencia #3 Los Juegos Como Problemas de Búsqueda
Documento9 páginas
Conferencia #3 Los Juegos Como Problemas de Búsqueda
Daniela
Aún no hay calificaciones
Tarea Academica
Documento12 páginas
Tarea Academica
Atr Valesca
Aún no hay calificaciones
Articulo Cientifico Deeplearning
Documento7 páginas
Articulo Cientifico Deeplearning
Carlos Arroyo Gabino
Aún no hay calificaciones
Aprendizaje Supervisado
Documento6 páginas
Aprendizaje Supervisado
esuarezserrano
Aún no hay calificaciones
Clasificación Supervisada y No Supervisada
Documento10 páginas
Clasificación Supervisada y No Supervisada
Hugo Senozaín Capcha
100% (1)
Señales
Documento29 páginas
Señales
Harold De la Zota
Aún no hay calificaciones
Trabajo Final Algoritmo Híbrido
Documento25 páginas
Trabajo Final Algoritmo Híbrido
SERGIO ANDRES CASTRO PASTRAN
Aún no hay calificaciones
4.2 Practica. Técnicas de Deep Learning en Datos Longitudinales
Documento21 páginas
4.2 Practica. Técnicas de Deep Learning en Datos Longitudinales
uwutumamaxd60
Aún no hay calificaciones
Alfa Beta
Documento7 páginas
Alfa Beta
ALe Lafuente Vargas
Aún no hay calificaciones
Redes Neuronales
Documento8 páginas
Redes Neuronales
Audita
Aún no hay calificaciones
Cómo Programar Una Red Neuronal Desde 0 en Python
Documento4 páginas
Cómo Programar Una Red Neuronal Desde 0 en Python
toro vaca
Aún no hay calificaciones
Ejerc6 2
Documento8 páginas
Ejerc6 2
romantico2011
Aún no hay calificaciones
Algoritmos y La Teoria de Juegos
Documento8 páginas
Algoritmos y La Teoria de Juegos
Giovani Vega Capcha
Aún no hay calificaciones
S05.s1 - Redes Neuronales y Lógica Difusa
Documento23 páginas
S05.s1 - Redes Neuronales y Lógica Difusa
Jonathan Gabriel Catari Alanoca
Aún no hay calificaciones
Ajedrez e Informatica
Documento11 páginas
Ajedrez e Informatica
kmiloa
Aún no hay calificaciones
Propagación Hacia Atrás
Documento8 páginas
Propagación Hacia Atrás
Julio Chinchilla Valenzuela
Aún no hay calificaciones
Algoritmo Min Max
Documento20 páginas
Algoritmo Min Max
Fredesvinda Jimenez Peralta
Aún no hay calificaciones
Integradora Sistemas
Documento16 páginas
Integradora Sistemas
Amadeus AG
Aún no hay calificaciones
Búsqueda Entre Adversarios
Documento6 páginas
Búsqueda Entre Adversarios
Francisco Javier Perez
Aún no hay calificaciones
Que Es Tensorflow Teoria Tensor Flows
Documento4 páginas
Que Es Tensorflow Teoria Tensor Flows
xiomara garcia
100% (1)
Evaluacion T2
Documento6 páginas
Evaluacion T2
Hans brian Díaz Verastegui
Aún no hay calificaciones
Lait605 - U4 - Barcenas - Rafael.
Documento12 páginas
Lait605 - U4 - Barcenas - Rafael.
rafael barcenas
Aún no hay calificaciones
Predicción de Series de Tiempo Usando Deep Learning - MATLAB y Simulink
Documento7 páginas
Predicción de Series de Tiempo Usando Deep Learning - MATLAB y Simulink
juan manuel esparza gómez
Aún no hay calificaciones
Tema 3 - K - Nearest Neighbors
Documento5 páginas
Tema 3 - K - Nearest Neighbors
remarxtin
Aún no hay calificaciones
Funcion-Hardlim y Hardlims
Documento7 páginas
Funcion-Hardlim y Hardlims
Ronald Rojas
Aún no hay calificaciones
El Algoritmo Minimax
Documento5 páginas
El Algoritmo Minimax
Duker Quijije
Aún no hay calificaciones
Red Semantica IA
Documento1 página
Red Semantica IA
mcronaldses
Aún no hay calificaciones
Tema 6 PDF
Documento96 páginas
Tema 6 PDF
Andrea Yolanda Freire
Aún no hay calificaciones
Algoritmos de Busqueda Ciega
Documento4 páginas
Algoritmos de Busqueda Ciega
Memoo Hernández Calderón
Aún no hay calificaciones
P1 Sol
Documento4 páginas
P1 Sol
Iñigo Sánchez Enciso
Aún no hay calificaciones
Redes Neuronales - GNSS
Documento12 páginas
Redes Neuronales - GNSS
caherbu
Aún no hay calificaciones
Eficiencia de Los Algoritmos de Ordenamiento y Búsqueda
Documento19 páginas
Eficiencia de Los Algoritmos de Ordenamiento y Búsqueda
Franklin Maestre
Aún no hay calificaciones
Entiendo, Entre-WPS Office
Documento7 páginas
Entiendo, Entre-WPS Office
cairong400
Aún no hay calificaciones
Funciones de Entrenamiento
Documento32 páginas
Funciones de Entrenamiento
ejmc_sic
Aún no hay calificaciones
Mapas Auto-Organizados
Documento27 páginas
Mapas Auto-Organizados
Jonathan Linch Gonzalez
Aún no hay calificaciones
Redes Neuronales PDF
Documento8 páginas
Redes Neuronales PDF
ronny vc
Aún no hay calificaciones
Integradora Sistemas
Documento16 páginas
Integradora Sistemas
Amadeus AG
Aún no hay calificaciones
Minimax
Documento27 páginas
Minimax
Bruno Vega Vargas
Aún no hay calificaciones
Hard Lim
Documento5 páginas
Hard Lim
YeCeci Chamba
Aún no hay calificaciones
Aplicacion de Algoritmos Geneticos: Resolucion de Sudokus
Documento6 páginas
Aplicacion de Algoritmos Geneticos: Resolucion de Sudokus
Elena Vales
Aún no hay calificaciones
Resumen de La Red Neuronal
Documento4 páginas
Resumen de La Red Neuronal
ismaeldarius123
Aún no hay calificaciones
Prueba de Conocimientos - Training - Microsoft Learn14
Documento2 páginas
Prueba de Conocimientos - Training - Microsoft Learn14
emilio
Aún no hay calificaciones
4.2 Practica. Técnicas de Deep Learning en Datos Longitudinales
Documento23 páginas
4.2 Practica. Técnicas de Deep Learning en Datos Longitudinales
uwutumamaxd60
Aún no hay calificaciones
3.atdf105 s8 Leal
Documento22 páginas
3.atdf105 s8 Leal
Boris Becker Ramos Mays
Aún no hay calificaciones
Redes Neuronales-Red de Kohonen
Documento41 páginas
Redes Neuronales-Red de Kohonen
Axel 76
100% (1)
Algoritmos de La Búsquedas
Documento8 páginas
Algoritmos de La Búsquedas
Carlos Maldonado
Aún no hay calificaciones
Dist-Teoria de Grafos
Documento17 páginas
Dist-Teoria de Grafos
Elkiin Arroyo
Aún no hay calificaciones
Inteligencia Artificial 1: C10: Búsqueda Con Adversario
Documento43 páginas
Inteligencia Artificial 1: C10: Búsqueda Con Adversario
JOEL ERICK GUTIERREZ PUMA
Aún no hay calificaciones
Segmentación de imagen: Desbloqueo de información a través de Pixel Precision
De Everand
Segmentación de imagen: Desbloqueo de información a través de Pixel Precision
Fouad Sabry
Aún no hay calificaciones
Motl Apx8000xe Datasheet Es
Documento12 páginas
Motl Apx8000xe Datasheet Es
luis
Aún no hay calificaciones
Base
Documento40 páginas
Base
Yves Ryan Flores Aizprua
Aún no hay calificaciones
Gobierno Corporativo en Modelo Canvas
Documento3 páginas
Gobierno Corporativo en Modelo Canvas
cunil_antonio
Aún no hay calificaciones
Identidad Virtual
Documento13 páginas
Identidad Virtual
estefany
Aún no hay calificaciones
Cómo Desinstalo Mi Producto de Seguridad ESET Manualmente
Documento8 páginas
Cómo Desinstalo Mi Producto de Seguridad ESET Manualmente
ceucih
Aún no hay calificaciones
Evolución de La Infraestructura de TI
Documento5 páginas
Evolución de La Infraestructura de TI
razor13
Aún no hay calificaciones
Informe de Practicas Pre Profesionales Armando Samil Condori Mosqueira
Documento7 páginas
Informe de Practicas Pre Profesionales Armando Samil Condori Mosqueira
Armando Samil Condori Mosqueira
100% (1)
ESP TECNICA IND D2IBE-2 JG430638sv01
Documento37 páginas
ESP TECNICA IND D2IBE-2 JG430638sv01
vicente fernandez
100% (1)
Examen Competencia 2
Documento6 páginas
Examen Competencia 2
Javier Armando Goys Peña
Aún no hay calificaciones
IA y Big Data
Documento2 páginas
IA y Big Data
Yesireth Morales
Aún no hay calificaciones
9 Registros de Desplazamiento Contenido Del Capítulo 9
Documento2 páginas
9 Registros de Desplazamiento Contenido Del Capítulo 9
leo jocet
Aún no hay calificaciones
Instalar Un Módem Como Elemento de Transmisión
Documento6 páginas
Instalar Un Módem Como Elemento de Transmisión
Gero Hero
Aún no hay calificaciones
Evaluación Final - Revisión Del Intento Office 2
Documento5 páginas
Evaluación Final - Revisión Del Intento Office 2
Quirino Angeles Muñoz
67% (3)
Hello World en C#
Documento7 páginas
Hello World en C#
Belen Sanchez
Aún no hay calificaciones
Informe Tecnico - Balabolka
Documento5 páginas
Informe Tecnico - Balabolka
Bass Sanchez
Aún no hay calificaciones
Lab 11 - CCS 1
Documento17 páginas
Lab 11 - CCS 1
Sebastian andre Carrion castro
Aún no hay calificaciones
Tarea Circuitos Digitales
Documento4 páginas
Tarea Circuitos Digitales
David Perez
Aún no hay calificaciones
Modulo Noveno
Documento7 páginas
Modulo Noveno
Anyela Beltran Lombana
Aún no hay calificaciones
Elaboración de Pirámides de Población Con Excel
Documento3 páginas
Elaboración de Pirámides de Población Con Excel
Charlirambo1
Aún no hay calificaciones
Manual Programador Pics
Documento19 páginas
Manual Programador Pics
fabio izquierdo ramos
Aún no hay calificaciones
Sistemas Scada
Documento10 páginas
Sistemas Scada
Marlon Ambo Llivi
Aún no hay calificaciones
Proforma 2023-Tripay Martin
Documento1 página
Proforma 2023-Tripay Martin
ti
Aún no hay calificaciones
TURNITIN
Documento8 páginas
TURNITIN
anibal rico
0% (1)
Manual - Uso de Vlearning
Documento12 páginas
Manual - Uso de Vlearning
Roi
Aún no hay calificaciones
Ejercicios Realizados Sobre Docker
Documento38 páginas
Ejercicios Realizados Sobre Docker
carolina Bonilla
Aún no hay calificaciones
Caso Data Mart Northwind - ETL Aaaa
Documento8 páginas
Caso Data Mart Northwind - ETL Aaaa
Yesquen
100% (2)
s15.s1 Actualizado - Guia Ms Project
Documento44 páginas
s15.s1 Actualizado - Guia Ms Project
Máximo Emmanuel Muñoz Guevara
Aún no hay calificaciones
Eps Sanitas SA
Documento2 páginas
Eps Sanitas SA
Cristian Bejarano
Aún no hay calificaciones