Aprendizaje por refuerzo
Libro de texto
Reinforcement Learning: An Introduction de Richard S. Sutton and Andrew G. Barto. La biblia del aprendizaje por refuerzo (y más esta segunda edición que publicará el MIT Press en noviembre de 2018). Publicado bajo un acuerdo de open access, por lo que el libro está disponible en forma gratuita por los autores.
El capítulo 6 y el capítulo 9 son esenciales para los conceptos básicos de RL.
Otro material
Ejercicios y proyectos de evaluación para el tópico de aprendizaje por refuerzo
Para evaluar las competencias adquiridas sobre aprendizaje por refuerzo, hemos dividido la evaluacion de ésta unidad en trés partes diferentes:
- Ejercicios para comprender los algoritmos básicos. Estos ejercicios son 3 ejemplos básicos que vienen el en libro de Sutton con pequeñas modificaciones propuestas como ejercicios, los cuales son:
- Windy Grid World
- Cliff Walking
- Mountain Car
-
Desarrollar el modelo de la veintiuna simplificada utilizada en el tópico de programación dinámica y comparr el uso de un método como SARSA o QL y sus ventajas y desventajas respecto a la programación dinámica.
-
Un modelo de RL para un juego en particular (como pacman, spaceinvaders, o el control de un acrobot, un robot que camina, etc., basados en los modelos existentes en openai gym.
Ejercicios desarrollados por estudiante para su evaluación
Estudiante | Ejercicios Libro de Sutton | Veintiuna | open IA |
---|---|---|---|
Belen | Ejercicios | veintiuna | Acrobot |
Adrián | Ejercicios | pendiente | pendiente |
Fernando | Ejercicios | veintiuna | Acrobot |
Ivan | Ejercicios | Veintiuna | Acrobot |
Ricardo | Ejercicios | veintiuna | Acrobot |
Giovanni | Ejercicios | veintiuna | Acrobot y Pacman |
Para esta unidad vamos a realizar una evaluación democrática en varios pasos. En un primer paso, vamos a organizar a todos los trabajos de los compañeros en orden, donde el 1 es el mejor trabajo y el 7 el menos bueno. Junto a la evaluación, vamos a incluir una opción en la que se considera si el compañero aprobó no no la evaluación. Sobre los aprobados, haremos una dinámica en clase para asignar las calificaciones.