26 lines (25 loc) · 426 Bytes

reinforcement-learning

强化学习

mdp

mdp.py
mdp_value.py

model-based

mdp.py
policy_iteration.py
value_iteration.py

model-free-prediction

mdp.py
model_free_policy_evaluation.py

model-free-control

mdp.py
model_free_control.py

value-function-approximation

mdp.py
evaler.py
policy.py
value_function_approximation.py

policy-gradient

mdp.py
evaler.py
policy.py
policy_gradient.py