add additional configs with shorter unroll lengths

BartekCupial · BartekCupial · commit cd6288f06198 · 2023-09-22T08:30:24.000+02:00
diff --git a/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-CEAA-T.py b/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-CEAA-T.py
@@ -24,12 +24,6 @@
     "use_resnet": True,
     "model": "NetHackNetTtyrec",
     "unfreeze_actor_steps": 50_000_000,
-    "actor_batch_size": 64,
-    "batch_size": 32,
-    "virtual_batch_size": 32,
-    "ttyrec_batch_size": 128,
-    "unroll_length": 80,
-    "ttyrec_unroll_length": 80,
 }
 
 # params different between exps
@@ -40,10 +34,32 @@
         "baseline_cost": [0.5],
         "reward_clip": [False],
         "adam_learning_rate": [0.0002],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "ttyrec_batch_size": [128],
+        "unroll_length": [80],
+        "ttyrec_unroll_length": [80],
     },
     {
         "seed": list(range(5)),
         "adam_learning_rate": [0.001],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "ttyrec_batch_size": [128],
+        "unroll_length": [80],
+        "ttyrec_unroll_length": [80],
+    },
+    {
+        "seed": list(range(5)),
+        "adam_learning_rate": [0.001],
+        "actor_batch_size": [128],
+        "batch_size": [64],
+        "virtual_batch_size": [64],
+        "ttyrec_batch_size": [256],
+        "unroll_length": [32],
+        "ttyrec_unroll_length": [32],
     },
 ]
 
diff --git a/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KLAA-T.py b/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KLAA-T.py
@@ -26,12 +26,6 @@
     "use_resnet": True,
     "model": "NetHackNetTtyrec",
     "unfreeze_actor_steps": 50_000_000,
-    "actor_batch_size": 64,
-    "batch_size": 32,
-    "virtual_batch_size": 32,
-    "ttyrec_batch_size": 128,
-    "unroll_length": 80,
-    "ttyrec_unroll_length": 80,
 }
 
 # params different between exps
@@ -42,10 +36,32 @@
         "baseline_cost": [0.5],
         "reward_clip": [False],
         "adam_learning_rate": [0.0002],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "ttyrec_batch_size": [128],
+        "unroll_length": [80],
+        "ttyrec_unroll_length": [80],
     },
     {
         "seed": list(range(5)),
         "adam_learning_rate": [0.001],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "ttyrec_batch_size": [128],
+        "unroll_length": [80],
+        "ttyrec_unroll_length": [80],
+    },
+    {
+        "seed": list(range(5)),
+        "adam_learning_rate": [0.001],
+        "actor_batch_size": [128],
+        "batch_size": [64],
+        "virtual_batch_size": [64],
+        "ttyrec_batch_size": [256],
+        "unroll_length": [32],
+        "ttyrec_unroll_length": [32],
     },
 ]
 
diff --git a/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KLBC-T.py b/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KLBC-T.py
@@ -0,0 +1,88 @@
+from random_word import RandomWords
+
+from mrunner.helpers.specification_helper import (
+    create_experiments_helper,
+    get_combinations,
+)
+
+name = globals()["script"][:-3]
+
+# params for all exps
+config = {
+    "exp_tags": [name],
+    "connect": "0.0.0.0:4431",
+    "exp_set": "2G",
+    "exp_point": "monk-APPO-AMZN-KLBC",
+    "num_actor_cpus": 20,
+    "total_steps": 2_000_000_000,
+    "group": "monk-APPO-AMZN-KLBC",
+    "character": "mon-hum-neu-mal",
+    "use_checkpoint_actor": True,
+    "kickstarting_loss_bc": 0.2,
+    "use_kickstarting_bc": True,
+    "kickstarting_path": "/net/pr2/projects/plgrid/plgggmum_crl/bcupial/AMZN/checkpoint_v0",
+    "model_checkpoint_path": "/net/pr2/projects/plgrid/plgggmum_crl/bcupial/AMZN/checkpoint_v0",
+    "dataset": "amzn_bc",
+    "use_resnet": True,
+    "model": "NetHackNetTtyrec",
+    "unfreeze_actor_steps": 50_000_000,
+}
+
+# params different between exps
+params_grid = [
+    {
+        "seed": list(range(5)),
+        "entropy_cost": [0.001],
+        "baseline_cost": [0.5],
+        "reward_clip": [False],
+        "adam_learning_rate": [0.0002],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "ttyrec_batch_size": [128],
+        "unroll_length": [80],
+        "ttyrec_unroll_length": [80],
+    },
+    {
+        "seed": list(range(5)),
+        "adam_learning_rate": [0.001],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "ttyrec_batch_size": [128],
+        "unroll_length": [80],
+        "ttyrec_unroll_length": [80],
+    },
+    {
+        "seed": list(range(5)),
+        "adam_learning_rate": [0.001],
+        "actor_batch_size": [128],
+        "batch_size": [64],
+        "virtual_batch_size": [64],
+        "ttyrec_batch_size": [256],
+        "unroll_length": [32],
+        "ttyrec_unroll_length": [32],
+    },
+]
+
+params_configurations = get_combinations(params_grid)
+
+final_grid = []
+for e, cfg in enumerate(params_configurations):
+    cfg = {key: [value] for key, value in cfg.items()}
+    r = RandomWords().get_random_word()
+    cfg["group"] = [f"{name}_{e}_{r}"]
+    final_grid.append(dict(cfg))
+
+
+experiments_list = create_experiments_helper(
+    experiment_name=name,
+    project_name="nle",
+    with_neptune=False,
+    script="python3 mrunner_run.py",
+    python_path=".",
+    tags=[name],
+    exclude=["checkpoint"],
+    base_config=config,
+    params_grid=final_grid,
+)
diff --git a/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KS-T.py b/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KS-T.py
@@ -25,10 +25,6 @@
     "use_resnet": True,
     "model": "NetHackNetTtyrec",
     "unfreeze_actor_steps": 50_000_000,
-    "actor_batch_size": 64,
-    "batch_size": 32,
-    "virtual_batch_size": 32,
-    "unroll_length": 80,
 }
 
 # params different between exps
@@ -39,10 +35,26 @@
         "baseline_cost": [0.5],
         "reward_clip": [False],
         "adam_learning_rate": [0.0002],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "unroll_length": [80],
     },
     {
         "seed": list(range(5)),
         "adam_learning_rate": [0.001],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "unroll_length": [80],
+    },
+    {
+        "seed": list(range(5)),
+        "adam_learning_rate": [0.001],
+        "actor_batch_size": [128],
+        "batch_size": [64],
+        "virtual_batch_size": [64],
+        "unroll_length": [32],
     },
 ]
 
diff --git a/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-T.py b/experiment_code/mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-T.py
@@ -22,10 +22,6 @@
     "use_resnet": True,
     "model": "NetHackNetTtyrec",
     "unfreeze_actor_steps": 50_000_000,
-    "actor_batch_size": 64,
-    "batch_size": 32,
-    "virtual_batch_size": 32,
-    "unroll_length": 80,
 }
 
 # params different between exps
@@ -36,10 +32,26 @@
         "baseline_cost": [0.5],
         "reward_clip": [False],
         "adam_learning_rate": [0.0002],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "unroll_length": [80],
     },
     {
         "seed": list(range(5)),
         "adam_learning_rate": [0.001],
+        "actor_batch_size": [64],
+        "batch_size": [32],
+        "virtual_batch_size": [32],
+        "unroll_length": [80],
+    },
+    {
+        "seed": list(range(5)),
+        "adam_learning_rate": [0.001],
+        "actor_batch_size": [128],
+        "batch_size": [64],
+        "virtual_batch_size": [64],
+        "unroll_length": [32],
     },
 ]
 
diff --git a/experiment_code/mrunner_runs/iclr.sh b/experiment_code/mrunner_runs/iclr.sh
@@ -9,8 +9,9 @@ ssh-add
 # mrunner --config ~/.mrunner.yaml --context ares_nethack_gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KS-T.py
 # mrunner --config ~/.mrunner.yaml --context ares_nethack_gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-T.py
 
-# mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-AA-BC.py
-# mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-CEAA-T.py
-# mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KLAA-T.py
-# mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KS-T.py
-# mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-T.py
+# mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-AA-BC.py 
+mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-CEAA-T.py
+mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KLAA-T.py
+# mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KLBC-T.py # waiting for dataset
+mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-AA-KS-T.py
+mrunner --config ~/.mrunner.yaml --context athena_nethack_1gpu run mrunner_exps/ICLR_baselines/2023_20_09_monk-APPO-T.py