thu-ml
diff --git a/‎CHANGELOG.md‎
Lines changed: 2 additions & 2 deletions b/‎CHANGELOG.md‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/box2d/bipedal_hardcore_sac.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/box2d/bipedal_hardcore_sac.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/box2d/mcc_sac.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/box2d/mcc_sac.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/inverse/irl_gail.py‎
Lines changed: 4 additions & 4 deletions b/‎examples/inverse/irl_gail.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎examples/mujoco/mujoco_a2c.py‎
Lines changed: 4 additions & 4 deletions b/‎examples/mujoco/mujoco_a2c.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎examples/mujoco/mujoco_npg.py‎
Lines changed: 4 additions & 4 deletions b/‎examples/mujoco/mujoco_npg.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎examples/mujoco/mujoco_ppo.py‎
Lines changed: 4 additions & 4 deletions b/‎examples/mujoco/mujoco_ppo.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎examples/mujoco/mujoco_redq.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/mujoco/mujoco_redq.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/mujoco/mujoco_reinforce.py‎
Lines changed: 4 additions & 4 deletions b/‎examples/mujoco/mujoco_reinforce.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎examples/mujoco/mujoco_sac.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/mujoco/mujoco_sac.py‎
Lines changed: 2 additions & 2 deletions
@@ -183,7 +183,7 @@ Developers:
 
 * The `Actor` classes have been renamed for clarity:
     * `BaseActor` -> `Actor` 
-    * `continuous.ActorProb` -> `ContinuousActorProb`
+    * `continuous.ActorProb` -> `ContinuousActorProbabilistic`
     * `coninuous.Actor` -> `ContinuousActorDeterministic`
     * `discrete.Actor` -> `DiscreteActor`
 * The `Critic` classes have been renamed for clarity:
@@ -192,7 +192,7 @@ Developers:
 * Moved Atari helper modules `atari_network` and `atari_wrapper` to the library under `tianshou.env.atari`.
 * Fix issues pertaining to the torch device assignment of network components (#810):
     * Remove 'device' member (and the corresponding constructor argument) from the following classes:
-      `BranchingNet`, `C51Net`, `ContinuousActorDeterministic`, `ContinuousActorProb`, `ContinuousCritic`, 
+      `BranchingNet`, `C51Net`, `ContinuousActorDeterministic`, `ContinuousActorProbabilistic`, `ContinuousCritic`, 
       `DiscreteActor`, `DiscreteCritic`, `DQNet`, `FullQuantileFunction`, `ImplicitQuantileNetwork`, 
       `IntrinsicCuriosityModule`, `Net`, `MLP`, `Perturbation`, `QRDQNet`, `Rainbow`, `Recurrent`, 
       `RecurrentActorProb`, `RecurrentCritic`, `VAE`
 
@@ -18,7 +18,7 @@
 from tianshou.trainer import OffPolicyTrainerParams
 from tianshou.utils import TensorboardLogger
 from tianshou.utils.net.common import Net
-from tianshou.utils.net.continuous import ContinuousActorProb, ContinuousCritic
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic, ContinuousCritic
 from tianshou.utils.space_info import SpaceInfo
 
 
@@ -111,7 +111,7 @@ def test_sac_bipedal(args: argparse.Namespace = get_args()) -> None:
 
     # model
     net_a = Net(state_shape=args.state_shape, hidden_sizes=args.hidden_sizes)
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net_a,
         action_shape=args.action_shape,
         unbounded=True,
 
@@ -17,7 +17,7 @@
 from tianshou.trainer import OffPolicyTrainerParams
 from tianshou.utils import TensorboardLogger
 from tianshou.utils.net.common import Net
-from tianshou.utils.net.continuous import ContinuousActorProb, ContinuousCritic
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic, ContinuousCritic
 from tianshou.utils.space_info import SpaceInfo
 
 
@@ -69,7 +69,7 @@ def test_sac(args: argparse.Namespace = get_args()) -> None:
     test_envs.seed(args.seed)
     # model
     net = Net(state_shape=args.state_shape, hidden_sizes=args.hidden_sizes)
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net, action_shape=args.action_shape, unbounded=True
     ).to(args.device)
     actor_optim = AdamOptimizerFactory(lr=args.actor_lr)
 
@@ -25,12 +25,12 @@
 from tianshou.env import SubprocVectorEnv, VectorEnvNormObs
 from tianshou.policy import GAIL
 from tianshou.policy.base import Algorithm
-from tianshou.policy.modelfree.pg import ActorPolicy
+from tianshou.policy.modelfree.pg import ActorPolicyProbabilistic
 from tianshou.policy.optim import AdamOptimizerFactory, LRSchedulerFactoryLinear
 from tianshou.trainer import OnPolicyTrainerParams
 from tianshou.utils import TensorboardLogger
 from tianshou.utils.net.common import Net
-from tianshou.utils.net.continuous import ContinuousActorProb, ContinuousCritic
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic, ContinuousCritic
 from tianshou.utils.space_info import SpaceInfo
 
 
@@ -127,7 +127,7 @@ def test_gail(args: argparse.Namespace = get_args()) -> None:
         hidden_sizes=args.hidden_sizes,
         activation=nn.Tanh,
     )
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net_a,
         action_shape=args.action_shape,
         unbounded=True,
@@ -204,7 +204,7 @@ def dist(loc_scale: tuple[torch.Tensor, torch.Tensor]) -> Distribution:
         )
     print("dataset loaded")
 
-    policy = ActorPolicy(
+    policy = ActorPolicyProbabilistic(
         actor=actor,
         dist_fn=dist,
         action_scaling=True,
 
@@ -15,11 +15,11 @@
 from tianshou.highlevel.logger import LoggerFactoryDefault
 from tianshou.policy import A2C
 from tianshou.policy.base import Algorithm
-from tianshou.policy.modelfree.pg import ActorPolicy
+from tianshou.policy.modelfree.pg import ActorPolicyProbabilistic
 from tianshou.policy.optim import LRSchedulerFactoryLinear, RMSpropOptimizerFactory
 from tianshou.trainer import OnPolicyTrainerParams
 from tianshou.utils.net.common import ActorCritic, Net
-from tianshou.utils.net.continuous import ContinuousActorProb, ContinuousCritic
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic, ContinuousCritic
 
 
 def get_args() -> argparse.Namespace:
@@ -94,7 +94,7 @@ def main(args: argparse.Namespace = get_args()) -> None:
         hidden_sizes=args.hidden_sizes,
         activation=nn.Tanh,
     )
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net_a,
         action_shape=args.action_shape,
         unbounded=True,
@@ -140,7 +140,7 @@ def dist(loc_scale: tuple[torch.Tensor, torch.Tensor]) -> Distribution:
         loc, scale = loc_scale
         return Independent(Normal(loc, scale), 1)
 
-    policy = ActorPolicy(
+    policy = ActorPolicyProbabilistic(
         actor=actor,
         dist_fn=dist,
         action_scaling=True,
 
@@ -15,11 +15,11 @@
 from tianshou.highlevel.logger import LoggerFactoryDefault
 from tianshou.policy import NPG
 from tianshou.policy.base import Algorithm
-from tianshou.policy.modelfree.pg import ActorPolicy
+from tianshou.policy.modelfree.pg import ActorPolicyProbabilistic
 from tianshou.policy.optim import AdamOptimizerFactory, LRSchedulerFactoryLinear
 from tianshou.trainer import OnPolicyTrainerParams
 from tianshou.utils.net.common import Net
-from tianshou.utils.net.continuous import ContinuousActorProb, ContinuousCritic
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic, ContinuousCritic
 
 
 def get_args() -> argparse.Namespace:
@@ -99,7 +99,7 @@ def main(args: argparse.Namespace = get_args()) -> None:
         hidden_sizes=args.hidden_sizes,
         activation=nn.Tanh,
     )
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net_a,
         action_shape=args.action_shape,
         unbounded=True,
@@ -138,7 +138,7 @@ def dist(loc_scale: tuple[torch.Tensor, torch.Tensor]) -> Distribution:
         loc, scale = loc_scale
         return Independent(Normal(loc, scale), 1)
 
-    policy = ActorPolicy(
+    policy = ActorPolicyProbabilistic(
         actor=actor,
         dist_fn=dist,
         action_scaling=True,
 
@@ -15,11 +15,11 @@
 from tianshou.highlevel.logger import LoggerFactoryDefault
 from tianshou.policy import PPO
 from tianshou.policy.base import Algorithm
-from tianshou.policy.modelfree.pg import ActorPolicy
+from tianshou.policy.modelfree.pg import ActorPolicyProbabilistic
 from tianshou.policy.optim import AdamOptimizerFactory, LRSchedulerFactoryLinear
 from tianshou.trainer import OnPolicyTrainerParams
 from tianshou.utils.net.common import ActorCritic, Net
-from tianshou.utils.net.continuous import ContinuousActorProb, ContinuousCritic
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic, ContinuousCritic
 
 
 def get_args() -> argparse.Namespace:
@@ -99,7 +99,7 @@ def main(args: argparse.Namespace = get_args()) -> None:
         hidden_sizes=args.hidden_sizes,
         activation=nn.Tanh,
     )
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net_a,
         action_shape=args.action_shape,
         unbounded=True,
@@ -141,7 +141,7 @@ def dist(loc_scale: tuple[torch.Tensor, torch.Tensor]) -> Distribution:
         loc, scale = loc_scale
         return Independent(Normal(loc, scale), 1)
 
-    policy = ActorPolicy(
+    policy = ActorPolicyProbabilistic(
         actor=actor,
         dist_fn=dist,
         action_scaling=True,
 
@@ -18,7 +18,7 @@
 from tianshou.policy.optim import AdamOptimizerFactory
 from tianshou.trainer import OffPolicyTrainerParams
 from tianshou.utils.net.common import EnsembleLinear, Net
-from tianshou.utils.net.continuous import ContinuousActorProb, ContinuousCritic
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic, ContinuousCritic
 
 
 def get_args() -> argparse.Namespace:
@@ -90,7 +90,7 @@ def main(args: argparse.Namespace = get_args()) -> None:
     torch.manual_seed(args.seed)
     # model
     net_a = Net(state_shape=args.state_shape, hidden_sizes=args.hidden_sizes)
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net_a,
         action_shape=args.action_shape,
         unbounded=True,
 
@@ -15,11 +15,11 @@
 from tianshou.highlevel.logger import LoggerFactoryDefault
 from tianshou.policy import Reinforce
 from tianshou.policy.base import Algorithm
-from tianshou.policy.modelfree.pg import ActorPolicy
+from tianshou.policy.modelfree.pg import ActorPolicyProbabilistic
 from tianshou.policy.optim import AdamOptimizerFactory, LRSchedulerFactoryLinear
 from tianshou.trainer import OnPolicyTrainerParams
 from tianshou.utils.net.common import Net
-from tianshou.utils.net.continuous import ContinuousActorProb
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic
 
 
 def get_args() -> argparse.Namespace:
@@ -91,7 +91,7 @@ def main(args: argparse.Namespace = get_args()) -> None:
         hidden_sizes=args.hidden_sizes,
         activation=nn.Tanh,
     )
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net_a,
         action_shape=args.action_shape,
         unbounded=True,
@@ -124,7 +124,7 @@ def dist(loc_scale: tuple[torch.Tensor, torch.Tensor]) -> Distribution:
         loc, scale = loc_scale
         return Independent(Normal(loc, scale), 1)
 
-    policy = ActorPolicy(
+    policy = ActorPolicyProbabilistic(
         actor=actor,
         dist_fn=dist,
         action_space=env.action_space,
 
@@ -17,7 +17,7 @@
 from tianshou.policy.optim import AdamOptimizerFactory
 from tianshou.trainer import OffPolicyTrainerParams
 from tianshou.utils.net.common import Net
-from tianshou.utils.net.continuous import ContinuousActorProb, ContinuousCritic
+from tianshou.utils.net.continuous import ContinuousActorProbabilistic, ContinuousCritic
 
 
 def get_args() -> argparse.Namespace:
@@ -86,7 +86,7 @@ def main(args: argparse.Namespace = get_args()) -> None:
     torch.manual_seed(args.seed)
     # model
     net_a = Net(state_shape=args.state_shape, hidden_sizes=args.hidden_sizes)
-    actor = ContinuousActorProb(
+    actor = ContinuousActorProbabilistic(
         preprocess_net=net_a,
         action_shape=args.action_shape,
         unbounded=True,