pilgrimygy
diff --git a/‎docs/experiments/experiments/CFR/JuliaRL_DeepCFR_OpenSpiel.jl‎
Lines changed: 8 additions & 2 deletions b/‎docs/experiments/experiments/CFR/JuliaRL_DeepCFR_OpenSpiel.jl‎
Lines changed: 8 additions & 2 deletions
diff --git a/‎docs/experiments/experiments/CFR/JuliaRL_TabularCFR_OpenSpiel.jl‎
Lines changed: 8 additions & 2 deletions b/‎docs/experiments/experiments/CFR/JuliaRL_TabularCFR_OpenSpiel.jl‎
Lines changed: 8 additions & 2 deletions
diff --git a/‎docs/experiments/experiments/DQN/Dopamine_DQN_Atari.jl‎
Lines changed: 35 additions & 39 deletions b/‎docs/experiments/experiments/DQN/Dopamine_DQN_Atari.jl‎
Lines changed: 35 additions & 39 deletions
diff --git a/‎docs/experiments/experiments/DQN/Dopamine_IQN_Atari.jl‎
Lines changed: 37 additions & 34 deletions b/‎docs/experiments/experiments/DQN/Dopamine_IQN_Atari.jl‎
Lines changed: 37 additions & 34 deletions
diff --git a/‎docs/experiments/experiments/DQN/Dopamine_Rainbow_Atari.jl‎
Lines changed: 36 additions & 33 deletions b/‎docs/experiments/experiments/DQN/Dopamine_Rainbow_Atari.jl‎
Lines changed: 36 additions & 33 deletions
diff --git a/‎docs/experiments/experiments/DQN/JuliaRL_BasicDQN_CartPole.jl‎
Lines changed: 1 addition & 1 deletion b/‎docs/experiments/experiments/DQN/JuliaRL_BasicDQN_CartPole.jl‎
Lines changed: 1 addition & 1 deletion
@@ -62,5 +62,11 @@ function RL.Experiment(
         initializer = glorot_normal(CUDA.CURAND.default_rng()),
     )
     # nash_conv ≈ 0.23
-    Experiment(p, env, StopAfterStep(500, is_show_progress=!haskey(ENV, "CI")), EmptyHook(), "# run DeepcCFR on leduc_poker")
-end
+    Experiment(
+        p,
+        env,
+        StopAfterStep(500, is_show_progress = !haskey(ENV, "CI")),
+        EmptyHook(),
+        "# run DeepcCFR on leduc_poker",
+    )
+end
@@ -23,9 +23,15 @@ function RL.Experiment(
     π = TabularCFRPolicy(; rng = rng)
 
     description = "# Play `$game` in OpenSpiel with TabularCFRPolicy"
-    Experiment(π, env, StopAfterStep(300, is_show_progress=!haskey(ENV, "CI")), EmptyHook(), description)
+    Experiment(
+        π,
+        env,
+        StopAfterStep(300, is_show_progress = !haskey(ENV, "CI")),
+        EmptyHook(),
+        description,
+    )
 end
 
 #+ tangle=false
 ex = E`JuliaRL_TabularCFR_OpenSpiel(kuhn_poker)`
-run(ex)
+run(ex)
@@ -79,39 +79,35 @@ function atari_env_factory(
     repeat_action_probability = 0.25,
     n_replica = nothing,
 )
-    init(seed) =
-        RewardOverriddenEnv(
-            StateCachedEnv(
-                StateTransformedEnv(
-                    AtariEnv(;
-                        name = string(name),
-                        grayscale_obs = true,
-                        noop_max = 30,
-                        frame_skip = 4,
-                        terminal_on_life_loss = false,
-                        repeat_action_probability = repeat_action_probability,
-                        max_num_frames_per_episode = n_frames * max_episode_steps,
-                        color_averaging = false,
-                        full_action_space = false,
-                        seed = seed,
-                    );
-                    state_mapping=Chain(
-                        ResizeImage(state_size...),
-                        StackFrames(state_size..., n_frames)
-                    ),
-                    state_space_mapping= _ -> Space(fill(0..256, state_size..., n_frames))
-                )
+    init(seed) = RewardOverriddenEnv(
+        StateCachedEnv(
+            StateTransformedEnv(
+                AtariEnv(;
+                    name = string(name),
+                    grayscale_obs = true,
+                    noop_max = 30,
+                    frame_skip = 4,
+                    terminal_on_life_loss = false,
+                    repeat_action_probability = repeat_action_probability,
+                    max_num_frames_per_episode = n_frames * max_episode_steps,
+                    color_averaging = false,
+                    full_action_space = false,
+                    seed = seed,
+                );
+                state_mapping = Chain(
+                    ResizeImage(state_size...),
+                    StackFrames(state_size..., n_frames),
+                ),
+                state_space_mapping = _ -> Space(fill(0..256, state_size..., n_frames)),
             ),
-            r -> clamp(r, -1, 1)
-        )
+        ),
+        r -> clamp(r, -1, 1),
+    )
 
     if isnothing(n_replica)
         init(seed)
     else
-        envs = [
-            init(isnothing(seed) ? nothing : hash(seed + i))
-            for i in 1:n_replica
-        ]
+        envs = [init(isnothing(seed) ? nothing : hash(seed + i)) for i in 1:n_replica]
         states = Flux.batch(state.(envs))
         rewards = reward.(envs)
         terminals = is_terminated.(envs)
@@ -172,7 +168,7 @@ function RL.Experiment(
     ::Val{:Atari},
     name::AbstractString;
     save_dir = nothing,
-    seed = nothing
+    seed = nothing,
 )
     rng = Random.GLOBAL_RNG
     Random.seed!(rng, seed)
@@ -190,7 +186,7 @@ function RL.Experiment(
         name,
         STATE_SIZE,
         N_FRAMES;
-        seed = isnothing(seed) ? nothing : hash(seed + 1)
+        seed = isnothing(seed) ? nothing : hash(seed + 1),
     )
     N_ACTIONS = length(action_space(env))
     init = glorot_uniform(rng)
@@ -254,17 +250,15 @@ function RL.Experiment(
         end,
         DoEveryNEpisode() do t, agent, env
             with_logger(lg) do
-                @info "training" episode_length = step_per_episode.steps[end] reward = reward_per_episode.rewards[end] log_step_increment = 0
+                @info "training" episode_length = step_per_episode.steps[end] reward =
+                    reward_per_episode.rewards[end] log_step_increment = 0
             end
         end,
-        DoEveryNStep(;n=EVALUATION_FREQ) do t, agent, env
+        DoEveryNStep(; n = EVALUATION_FREQ) do t, agent, env
             @info "evaluating agent at $t step..."
             p = agent.policy
             p = @set p.explorer = EpsilonGreedyExplorer(0.001; rng = rng)  # set evaluation epsilon
-            h = ComposedHook(
-                TotalOriginalRewardPerEpisode(),
-                StepsPerEpisode(),
-            )
+            h = ComposedHook(TotalOriginalRewardPerEpisode(), StepsPerEpisode())
             s = @elapsed run(
                 p,
                 atari_env_factory(
@@ -281,16 +275,18 @@ function RL.Experiment(
             avg_score = mean(h[1].rewards[1:end-1])
             avg_length = mean(h[2].steps[1:end-1])
 
-            @info "finished evaluating agent in $s seconds" avg_length = avg_length avg_score = avg_score
+            @info "finished evaluating agent in $s seconds" avg_length = avg_length avg_score =
+                avg_score
             with_logger(lg) do
-                @info "evaluating" avg_length = avg_length avg_score = avg_score log_step_increment = 0
+                @info "evaluating" avg_length = avg_length avg_score = avg_score log_step_increment =
+                    0
             end
         end,
     )
 
     stop_condition = StopAfterStep(
         haskey(ENV, "CI") ? 1_000 : 50_000_000,
-        is_show_progress=!haskey(ENV, "CI")
+        is_show_progress = !haskey(ENV, "CI"),
     )
     Experiment(agent, env, stop_condition, hook, "# DQN <-> Atari($name)")
 end
 
@@ -84,39 +84,35 @@ function atari_env_factory(
     repeat_action_probability = 0.25,
     n_replica = nothing,
 )
-    init(seed) =
-        RewardOverriddenEnv(
-            StateCachedEnv(
-                StateTransformedEnv(
-                    AtariEnv(;
-                        name = string(name),
-                        grayscale_obs = true,
-                        noop_max = 30,
-                        frame_skip = 4,
-                        terminal_on_life_loss = false,
-                        repeat_action_probability = repeat_action_probability,
-                        max_num_frames_per_episode = n_frames * max_episode_steps,
-                        color_averaging = false,
-                        full_action_space = false,
-                        seed = seed,
-                    );
-                    state_mapping=Chain(
-                        ResizeImage(state_size...),
-                        StackFrames(state_size..., n_frames)
-                    ),
-                    state_space_mapping= _ -> Space(fill(0..256, state_size..., n_frames))
-                )
+    init(seed) = RewardOverriddenEnv(
+        StateCachedEnv(
+            StateTransformedEnv(
+                AtariEnv(;
+                    name = string(name),
+                    grayscale_obs = true,
+                    noop_max = 30,
+                    frame_skip = 4,
+                    terminal_on_life_loss = false,
+                    repeat_action_probability = repeat_action_probability,
+                    max_num_frames_per_episode = n_frames * max_episode_steps,
+                    color_averaging = false,
+                    full_action_space = false,
+                    seed = seed,
+                );
+                state_mapping = Chain(
+                    ResizeImage(state_size...),
+                    StackFrames(state_size..., n_frames),
+                ),
+                state_space_mapping = _ -> Space(fill(0..256, state_size..., n_frames)),
             ),
-            r -> clamp(r, -1, 1)
-        )
+        ),
+        r -> clamp(r, -1, 1),
+    )
 
     if isnothing(n_replica)
         init(seed)
     else
-        envs = [
-            init(isnothing(seed) ? nothing : hash(seed + i))
-            for i in 1:n_replica
-        ]
+        envs = [init(isnothing(seed) ? nothing : hash(seed + i)) for i in 1:n_replica]
         states = Flux.batch(state.(envs))
         rewards = reward.(envs)
         terminals = is_terminated.(envs)
@@ -195,7 +191,12 @@ function RL.Experiment(
     N_FRAMES = 4
     STATE_SIZE = (84, 84)
 
-    env = atari_env_factory(name, STATE_SIZE, N_FRAMES; seed = isnothing(seed) ? nothing : hash(seed + 2))
+    env = atari_env_factory(
+        name,
+        STATE_SIZE,
+        N_FRAMES;
+        seed = isnothing(seed) ? nothing : hash(seed + 2),
+    )
     N_ACTIONS = length(action_space(env))
     Nₑₘ = 64
 
@@ -274,7 +275,7 @@ function RL.Experiment(
                     steps_per_episode.steps[end] log_step_increment = 0
             end
         end,
-        DoEveryNStep(;n=EVALUATION_FREQ) do t, agent, env
+        DoEveryNStep(; n = EVALUATION_FREQ) do t, agent, env
             @info "evaluating agent at $t step..."
             p = agent.policy
             p = @set p.explorer = EpsilonGreedyExplorer(0.001; rng = rng)  # set evaluation epsilon
@@ -286,7 +287,7 @@ function RL.Experiment(
                     STATE_SIZE,
                     N_FRAMES,
                     MAX_EPISODE_STEPS_EVAL;
-                    seed = isnothing(seed) ? nothing : hash(seed + t)
+                    seed = isnothing(seed) ? nothing : hash(seed + t),
                 ),
                 StopAfterStep(125_000; is_show_progress = false),
                 h,
@@ -295,16 +296,18 @@ function RL.Experiment(
             avg_score = mean(h[1].rewards[1:end-1])
             avg_length = mean(h[2].steps[1:end-1])
 
-            @info "finished evaluating agent in $s seconds" avg_length = avg_length avg_score = avg_score
+            @info "finished evaluating agent in $s seconds" avg_length = avg_length avg_score =
+                avg_score
             with_logger(lg) do
-                @info "evaluating" avg_length = avg_length avg_score = avg_score log_step_increment = 0
+                @info "evaluating" avg_length = avg_length avg_score = avg_score log_step_increment =
+                    0
             end
         end,
     )
 
     stop_condition = StopAfterStep(
         haskey(ENV, "CI") ? 10_000 : 50_000_000,
-        is_show_progress=!haskey(ENV, "CI")
+        is_show_progress = !haskey(ENV, "CI"),
     )
     Experiment(agent, env, stop_condition, hook, "# IQN <-> Atari($name)")
 end
 
@@ -83,39 +83,35 @@ function atari_env_factory(
     repeat_action_probability = 0.25,
     n_replica = nothing,
 )
-    init(seed) =
-        RewardOverriddenEnv(
-            StateCachedEnv(
-                StateTransformedEnv(
-                    AtariEnv(;
-                        name = string(name),
-                        grayscale_obs = true,
-                        noop_max = 30,
-                        frame_skip = 4,
-                        terminal_on_life_loss = false,
-                        repeat_action_probability = repeat_action_probability,
-                        max_num_frames_per_episode = n_frames * max_episode_steps,
-                        color_averaging = false,
-                        full_action_space = false,
-                        seed = seed,
-                    );
-                    state_mapping=Chain(
-                        ResizeImage(state_size...),
-                        StackFrames(state_size..., n_frames)
-                    ),
-                    state_space_mapping= _ -> Space(fill(0..256, state_size..., n_frames))
-                )
+    init(seed) = RewardOverriddenEnv(
+        StateCachedEnv(
+            StateTransformedEnv(
+                AtariEnv(;
+                    name = string(name),
+                    grayscale_obs = true,
+                    noop_max = 30,
+                    frame_skip = 4,
+                    terminal_on_life_loss = false,
+                    repeat_action_probability = repeat_action_probability,
+                    max_num_frames_per_episode = n_frames * max_episode_steps,
+                    color_averaging = false,
+                    full_action_space = false,
+                    seed = seed,
+                );
+                state_mapping = Chain(
+                    ResizeImage(state_size...),
+                    StackFrames(state_size..., n_frames),
+                ),
+                state_space_mapping = _ -> Space(fill(0..256, state_size..., n_frames)),
             ),
-            r -> clamp(r, -1, 1)
-        )
+        ),
+        r -> clamp(r, -1, 1),
+    )
 
     if isnothing(n_replica)
         init(seed)
     else
-        envs = [
-            init(isnothing(seed) ? nothing : hash(seed + i))
-            for i in 1:n_replica
-        ]
+        envs = [init(isnothing(seed) ? nothing : hash(seed + i)) for i in 1:n_replica]
         states = Flux.batch(state.(envs))
         rewards = reward.(envs)
         terminals = is_terminated.(envs)
@@ -191,7 +187,12 @@ function RL.Experiment(
 
     N_FRAMES = 4
     STATE_SIZE = (84, 84)
-    env = atari_env_factory(name, STATE_SIZE, N_FRAMES; seed = isnothing(seed) ? nothing : hash(seed + 1))
+    env = atari_env_factory(
+        name,
+        STATE_SIZE,
+        N_FRAMES;
+        seed = isnothing(seed) ? nothing : hash(seed + 1),
+    )
     N_ACTIONS = length(action_space(env))
     N_ATOMS = 51
     init = glorot_uniform(rng)
@@ -262,7 +263,7 @@ function RL.Experiment(
                     steps_per_episode.steps[end] log_step_increment = 0
             end
         end,
-        DoEveryNStep(;n=EVALUATION_FREQ) do t, agent, env
+        DoEveryNStep(; n = EVALUATION_FREQ) do t, agent, env
             @info "evaluating agent at $t step..."
             p = agent.policy
             p = @set p.explorer = EpsilonGreedyExplorer(0.001; rng = rng)  # set evaluation epsilon
@@ -282,16 +283,18 @@ function RL.Experiment(
             avg_length = mean(h[2].steps[1:end-1])
             avg_score = mean(h[1].rewards[1:end-1])
 
-            @info "finished evaluating agent in $s seconds" avg_length = avg_length avg_score = avg_score
+            @info "finished evaluating agent in $s seconds" avg_length = avg_length avg_score =
+                avg_score
             with_logger(lg) do
-                @info "evaluating" avg_length = avg_length avg_score = avg_score log_step_increment = 0
+                @info "evaluating" avg_length = avg_length avg_score = avg_score log_step_increment =
+                    0
             end
         end,
     )
 
     stop_condition = StopAfterStep(
         haskey(ENV, "CI") ? 10_000 : 50_000_000,
-        is_show_progress=!haskey(ENV, "CI")
+        is_show_progress = !haskey(ENV, "CI"),
     )
 
     Experiment(agent, env, stop_condition, hook, "# Rainbow <-> Atari($name)")
 
@@ -51,7 +51,7 @@ function RL.Experiment(
             state = Vector{Float32} => (ns,),
         ),
     )
-    stop_condition = StopAfterStep(10_000, is_show_progress=!haskey(ENV, "CI"))
+    stop_condition = StopAfterStep(10_000, is_show_progress = !haskey(ENV, "CI"))
     hook = TotalRewardPerEpisode()
     Experiment(policy, env, stop_condition, hook, "# BasicDQN <-> CartPole")
 end
Original file line number	Diff line number	Diff line change
`@@ -51,7 +51,7 @@ function RL.Experiment(`
`51`	`51`	`state = Vector{Float32} => (ns,),`
`52`	`52`	`),`
`53`	`53`	`)`
`54`		`- stop_condition = StopAfterStep(10_000, is_show_progress=!haskey(ENV, "CI"))`
	`54`	`+ stop_condition = StopAfterStep(10_000, is_show_progress = !haskey(ENV, "CI"))`
`55`	`55`	`hook = TotalRewardPerEpisode()`
`56`	`56`	`Experiment(policy, env, stop_condition, hook, "# BasicDQN <-> CartPole")`
`57`	`57`	`end`