1. Temario
- Introducción al aprendizaje por refuerzo
- Método de aprendizaje Q-Learning tabular
- Introducción y uso de *Deep Q-Learning
- Métodos de aprendizaje directo de políticas (Gradient Policy)
- Agente con aprendizaje en Unity
- Métodos de Actor / Crítico en entornos robóticos
- Introducción al aprendizaje por refuerzo multiagente
- Método Proximal Policy Optimization
2. Material para el aprendizaje
-
EL libro Reinforcement Learning: An Introduction de R. Sutton y A. Barto, todo un clásico en el área.
-
El curso de Deep Reinforcement Learning de Hugging Face muy reciente, para aprender a usar el ecosistema de HF.
-
Curso Reinforcement Learning (gratuito) de Udacity, viejito pero bonito.
-
La Reinforcement Learning Specialization de Coursera. La Universidad de Alberta es pionera en aprendizaje por refuerzo en el mundo. La espacialización tiene un costo alto, pero los cursos son auditables en Coursera.
-
Una serie de videos de DeepMind en Youtube, Deep Learning Lecture Series 2021.
-
Una libretita de jupyter con un ejemplo de programación dinámica que hacemos entre todos
3. Evaluación
Entregar, antes que acabe el semestre, el certificado de acreditación del curso de Hugging Face de aprendizaje por refuerzo profundo
Las fechas de entrega indicativas son las siguientes:
Fecha | Unidad | Modelos | Puntaje mínimo |
---|---|---|---|
7 feb | 1 | LunarLander-v2 | 200 |
14 feb | 2 | Taxi-v3 | 4.5 |
14 feb | 3 | SpaceInvadersNoFrameskip-v4 | 200 |
21 feb | 3bis | MountainCar-v0 y CartPole-v1 | NA |
21 feb | 4 | Cartpole-v1 y PixelCopter | 350 y 5 |
28 feb | 5 | Pyramids y SnowballTarget | 1.75 y 15 aprox. |
6 mar | 6 | PandaReachDense-v3 | 3.5 |
13 mar | 7 | AIvsAI-SoccerTwos | No hay mínimos pero juegas contra otros agentes |
20 mar | 8 | LunarLander-v2 | NA |
27 mar | 8bis | doom_health_gathering_supreme | 5 |