Q-learning en el ambiente del Frozen Lake - [Detalles]
Se presenta el algoritmo de aprendizaje por refuerzo Q-learning y se aplica al ambiente del Frozen Lake del gimansio OpenAI.
Iteración de política y procesos de decisión markovianos (MDP) - [Detalles]
Se presentan los procesos de decisión markovianos (MDP) y y el algoritmo de policy iteration para ejemplificar cómo resolver un MDP.