Aprendizaje por refuerzo

Libro de texto

Reinforcement Learning: An Introduction de Richard S. Sutton and Andrew G. Barto. La biblia del aprendizaje por refuerzo (y más esta segunda edición que publicará el MIT Press en noviembre de 2018). Publicado bajo un acuerdo de open access, por lo que el libro está disponible en forma gratuita por los autores.

El capítulo 6 y el capítulo 9 son esenciales para los conceptos básicos de RL.

Otro material

  1. Pequeño resumen de aprendizaje por refuerzo

  2. Algoritmos basados engradiente de política

  3. Presentación sobre Alpha Zero

Ejercicios y proyectos de evaluación para el tópico de aprendizaje por refuerzo

Para evaluar las competencias adquiridas sobre aprendizaje por refuerzo, hemos dividido la evaluacion de ésta unidad en trés partes diferentes:

  1. Ejercicios para comprender los algoritmos básicos. Estos ejercicios son 3 ejemplos básicos que vienen el en libro de Sutton con pequeñas modificaciones propuestas como ejercicios, los cuales son:
  • Windy Grid World
  • Cliff Walking
  • Mountain Car
  1. Desarrollar el modelo de la veintiuna simplificada utilizada en el tópico de programación dinámica y comparr el uso de un método como SARSA o QL y sus ventajas y desventajas respecto a la programación dinámica.

  2. Un modelo de RL para un juego en particular (como pacman, spaceinvaders, o el control de un acrobot, un robot que camina, etc., basados en los modelos existentes en openai gym.

Ejercicios desarrollados por estudiante para su evaluación

Estudiante Ejercicios Libro de Sutton Veintiuna open IA
Belen Ejercicios veintiuna Acrobot
Adrián Ejercicios pendiente pendiente
Fernando Ejercicios veintiuna Acrobot
Ivan Ejercicios Veintiuna Acrobot
Ricardo Ejercicios veintiuna Acrobot
Giovanni Ejercicios veintiuna Acrobot y Pacman

Para esta unidad vamos a realizar una evaluación democrática en varios pasos. En un primer paso, vamos a organizar a todos los trabajos de los compañeros en orden, donde el 1 es el mejor trabajo y el 7 el menos bueno. Junto a la evaluación, vamos a incluir una opción en la que se considera si el compañero aprobó no no la evaluación. Sobre los aprobados, haremos una dinámica en clase para asignar las calificaciones.