Enlace | Ir a recurso |
Descripción | Se presentan los procesos de decisión markovianos (MDP) y y el algoritmo de policy iteration para ejemplificar cómo resolver un MDP. |
Tipo | Práctica |
Palabras Clave | aprendizaje por refuerzo, iteración de política, policy iteration, procesos estocásticos |
Asignatura | Inteligencia Artificial |
Tema | Aprendizaje automático |
Subtema | Aprendizaje reforzado |
Categoría | None |
Autor | Alex Nakamura Díaz Francés |