thu-ml
diff --git a/‎docs/tutorials/tictactoe.rst‎
Lines changed: 4 additions & 3 deletions b/‎docs/tutorials/tictactoe.rst‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎examples/atari/atari_c51.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/atari/atari_c51.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/atari/atari_dqn.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/atari/atari_dqn.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/atari/atari_fqf.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/atari/atari_fqf.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/atari/atari_iqn.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/atari/atari_iqn.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/atari/atari_ppo.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/atari/atari_ppo.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/atari/atari_qrdqn.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/atari/atari_qrdqn.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/atari/atari_rainbow.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/atari/atari_rainbow.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/box2d/acrobot_dualdqn.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/box2d/acrobot_dualdqn.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/box2d/bipedal_hardcore_sac.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/box2d/bipedal_hardcore_sac.py‎
Lines changed: 2 additions & 2 deletions
@@ -327,7 +327,7 @@ With the above preparation, we are close to the first learned agent. The followi
 
     # ======== callback functions used during training =========
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         if hasattr(args, 'model_save_path'):
             model_save_path = args.model_save_path
         else:
@@ -358,8 +358,9 @@ With the above preparation, we are close to the first learned agent. The followi
         policy, train_collector, test_collector, args.epoch,
         args.step_per_epoch, args.step_per_collect, args.test_num,
         args.batch_size, train_fn=train_fn, test_fn=test_fn,
-        stop_fn=stop_fn, save_fn=save_fn, update_per_step=args.update_per_step,
-        logger=logger, test_in_train=False, reward_metric=reward_metric)
+        stop_fn=stop_fn, save_best_fn=save_best_fn,
+        update_per_step=args.update_per_step, logger=logger,
+        test_in_train=False, reward_metric=reward_metric)
 
     agent = policy.policies[args.agent_id - 1]
     # let's watch the match!
 
@@ -133,7 +133,7 @@ def test_c51(args=get_args()):
     else:  # wandb
         logger.load(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, "policy.pth"))
 
     def stop_fn(mean_rewards):
@@ -206,7 +206,7 @@ def watch():
         train_fn=train_fn,
         test_fn=test_fn,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger,
         update_per_step=args.update_per_step,
         test_in_train=False,
 
@@ -165,7 +165,7 @@ def test_dqn(args=get_args()):
     else:  # wandb
         logger.load(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, "policy.pth"))
 
     def stop_fn(mean_rewards):
@@ -244,7 +244,7 @@ def watch():
         train_fn=train_fn,
         test_fn=test_fn,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger,
         update_per_step=args.update_per_step,
         test_in_train=False,
 
@@ -150,7 +150,7 @@ def test_fqf(args=get_args()):
     else:  # wandb
         logger.load(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, "policy.pth"))
 
     def stop_fn(mean_rewards):
@@ -223,7 +223,7 @@ def watch():
         train_fn=train_fn,
         test_fn=test_fn,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger,
         update_per_step=args.update_per_step,
         test_in_train=False,
 
@@ -145,7 +145,7 @@ def test_iqn(args=get_args()):
     else:  # wandb
         logger.load(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, "policy.pth"))
 
     def stop_fn(mean_rewards):
@@ -218,7 +218,7 @@ def watch():
         train_fn=train_fn,
         test_fn=test_fn,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger,
         update_per_step=args.update_per_step,
         test_in_train=False,
 
@@ -209,7 +209,7 @@ def dist(p):
     else:  # wandb
         logger.load(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, "policy.pth"))
 
     def stop_fn(mean_rewards):
@@ -272,7 +272,7 @@ def watch():
         args.batch_size,
         step_per_collect=args.step_per_collect,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger,
         test_in_train=False,
         resume_from_log=args.resume_id is not None,
 
@@ -129,7 +129,7 @@ def test_qrdqn(args=get_args()):
     else:  # wandb
         logger.load(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, "policy.pth"))
 
     def stop_fn(mean_rewards):
@@ -202,7 +202,7 @@ def watch():
         train_fn=train_fn,
         test_fn=test_fn,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger,
         update_per_step=args.update_per_step,
         test_in_train=False,
 
@@ -162,7 +162,7 @@ def test_rainbow(args=get_args()):
     else:  # wandb
         logger.load(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, "policy.pth"))
 
     def stop_fn(mean_rewards):
@@ -246,7 +246,7 @@ def watch():
         train_fn=train_fn,
         test_fn=test_fn,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger,
         update_per_step=args.update_per_step,
         test_in_train=False,
 
@@ -99,7 +99,7 @@ def test_dqn(args=get_args()):
     writer = SummaryWriter(log_path)
     logger = TensorboardLogger(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, 'policy.pth'))
 
     def stop_fn(mean_rewards):
@@ -132,7 +132,7 @@ def test_fn(epoch, env_step):
         train_fn=train_fn,
         test_fn=test_fn,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger
     )
 
 
@@ -161,7 +161,7 @@ def test_sac_bipedal(args=get_args()):
     writer = SummaryWriter(log_path)
     logger = TensorboardLogger(writer)
 
-    def save_fn(policy):
+    def save_best_fn(policy):
         torch.save(policy.state_dict(), os.path.join(log_path, 'policy.pth'))
 
     def stop_fn(mean_rewards):
@@ -180,7 +180,7 @@ def stop_fn(mean_rewards):
         update_per_step=args.update_per_step,
         test_in_train=False,
         stop_fn=stop_fn,
-        save_fn=save_fn,
+        save_best_fn=save_best_fn,
         logger=logger
     )