Aprendizaje por refuerzo

Libro de texto

Reinforcement Learning: An Introduction de Richard S. Sutton and Andrew G. Barto. La biblia del aprendizaje por refuerzo (y más esta segunda edición que publicará el MIT Press en noviembre de 2018). Publicado bajo un acuerdo de open access, por lo que el libro está disponible en forma gratuita por los autores.

El capítulo 6 y el capítulo 9 son esenciales para los conceptos básicos de RL.

Otro material

Ejercicios y proyectos de evaluación para el tópico de aprendizaje por refuerzo

Para evaluar las competencias adquiridas sobre aprendizaje por refuerzo, hemos dividido la evaluacion de ésta unidad en trés partes diferentes:

Ejercicios para comprender los algoritmos básicos. Estos ejercicios son 3 ejemplos básicos que vienen el en libro de Sutton con pequeñas modificaciones propuestas como ejercicios, los cuales son:

Windy Grid World
Cliff Walking
Mountain Car

Desarrollar el modelo de la veintiuna simplificada utilizada en el tópico de programación dinámica y comparr el uso de un método como SARSA o QL y sus ventajas y desventajas respecto a la programación dinámica.
Un modelo de RL para un juego en particular (como pacman, spaceinvaders, o el control de un acrobot, un robot que camina, etc., basados en los modelos existentes en openai gym.

Ejercicios desarrollados por estudiante para su evaluación

Estudiante	Ejercicios Libro de Sutton	Veintiuna	open IA
Belen	Ejercicios	veintiuna	Acrobot
Adrián	Ejercicios	pendiente	pendiente
Fernando	Ejercicios	veintiuna	Acrobot
Ivan	Ejercicios	Veintiuna	Acrobot
Ricardo	Ejercicios	veintiuna	Acrobot
Giovanni	Ejercicios	veintiuna	Acrobot y Pacman

Para esta unidad vamos a realizar una evaluación democrática en varios pasos. En un primer paso, vamos a organizar a todos los trabajos de los compañeros en orden, donde el 1 es el mejor trabajo y el 7 el menos bueno. Junto a la evaluación, vamos a incluir una opción en la que se considera si el compañero aprobó no no la evaluación. Sobre los aprobados, haremos una dinámica en clase para asignar las calificaciones.