homerjed
diff --git a/‎configs/quijote.py‎
Lines changed: 86 additions & 34 deletions b/‎configs/quijote.py‎
Lines changed: 86 additions & 34 deletions
diff --git a/‎data/quijote.py‎
Lines changed: 28 additions & 21 deletions b/‎data/quijote.py‎
Lines changed: 28 additions & 21 deletions
diff --git a/‎examples/run_from_config.py‎
Lines changed: 1 addition & 0 deletions b/‎examples/run_from_config.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎paper/paper.bib‎
Lines changed: 10 additions & 0 deletions b/‎paper/paper.bib‎
Lines changed: 10 additions & 0 deletions
@@ -1,55 +1,107 @@
 import ml_collections
+import jax.numpy as jnp
+
+# def quijote_config():
+#     config = ml_collections.ConfigDict()
+
+#     config.seed            = 0
+
+#     # Data
+#     config.dataset_name    = "quijote" 
+#     config.n_pix           = 64
+
+#     # Model
+#     config.model = model = ml_collections.ConfigDict()
+#     model.model_type       = "UNet"
+#     model.is_biggan        = False
+#     model.dim_mults        = [1, 1, 1]
+#     model.hidden_size      = 128
+#     model.heads            = 4
+#     model.dim_head         = 64
+#     model.dropout_rate     = 0.3
+#     model.num_res_blocks   = 2
+#     model.attn_resolutions = [8, 32, 64]
+#     model.final_activation = None
+
+#     # SDE
+#     config.sde = sde = ml_collections.ConfigDict()
+#     sde.sde                = "VP"
+#     sde.t1                 = 8.
+#     sde.t0                 = 1e-5 
+#     sde.dt                 = 0.1
+#     sde.beta_integral      = lambda t: t 
+#     # sde: SDE            = VPSDE(beta_integral, dt=dt, t0=t0, t1=t1)
+
+#     # Sampling
+#     config.use_ema         = False
+#     config.sample_size     = 5
+#     config.exact_logp      = False
+#     config.ode_sample      = True
+#     config.eu_sample       = True
+
+#     # Optimisation hyperparameters
+#     config.start_step      = 0
+#     config.n_steps         = 1_000_000
+#     config.lr              = 1e-4
+#     config.batch_size      = 32
+#     config.sample_and_save_every     = 1_000
+#     config.opt             = "adabelief"
+#     config.opt_kwargs      = {} 
+#     config.num_workers     = 8
+
+#     # Other
+#     config.cmap            = "gnuplot" 
+
+#     return config
 
 
 def quijote_config():
     config = ml_collections.ConfigDict()
 
-    config.seed            = 0
+    config.seed                  = 0
 
     # Data
-    config.dataset_name    = "quijote" 
-    config.n_pix           = 64
+    config.dataset_name          = "quijote" 
+    config.n_pix                 = 64
 
     # Model
     config.model = model = ml_collections.ConfigDict()
-    model.model_type       = "UNet"
-    model.is_biggan        = False
-    model.dim_mults        = [1, 1, 1]
-    model.hidden_size      = 128
-    model.heads            = 4
-    model.dim_head         = 64
-    model.dropout_rate     = 0.3
-    model.num_res_blocks   = 2
-    model.attn_resolutions = [8, 32, 64]
-    model.final_activation = None
+    model.model_type             = "Mixer"
+    model.patch_size             = 2
+    model.hidden_size            = 1024
+    model.mix_patch_size         = 512
+    model.mix_hidden_size        = 1024
+    model.num_blocks             = 5
+    model.t1                     = 10.
+    model.final_activation       = None #"tanh"
 
     # SDE
     config.sde = sde = ml_collections.ConfigDict()
-    sde.sde                = "VP"
-    sde.t1                 = 8.
-    sde.t0                 = 1e-5 
-    sde.dt                 = 0.1
-    sde.beta_integral      = lambda t: t 
-    # sde: SDE            = VPSDE(beta_integral, dt=dt, t0=t0, t1=t1)
+    sde.sde                      = "VP"
+    sde.t1                       = model.t1
+    sde.t0                       = 0. 
+    sde.dt                       = 0.1
+    sde.beta_integral            = lambda t: t 
+    sde.weight_fn                = lambda t: 1. - jnp.exp(-sde.beta_integral(t)) 
 
     # Sampling
-    config.use_ema         = False
-    config.sample_size     = 5
-    config.exact_logp      = False
-    config.ode_sample      = True
-    config.eu_sample       = True
+    config.use_ema               = False
+    config.sample_size           = 5
+    config.exact_logp            = False
+    config.ode_sample            = True
+    config.eu_sample             = True
 
     # Optimisation hyperparameters
-    config.start_step      = 0
-    config.n_steps         = 1_000_000
-    config.lr              = 1e-4
-    config.batch_size      = 32
-    config.sample_and_save_every     = 1_000
-    config.opt             = "adabelief"
-    config.opt_kwargs      = {} 
-    config.num_workers     = 8
+    config.start_step            = 0
+    config.n_steps               = 1_000_000
+    config.lr                    = 1e-4
+    config.batch_size            = 32
+    config.sample_and_save_every = 5_000
+    config.opt                   = "adabelief"
+    config.opt_kwargs            = {} 
+    config.num_workers           = 8
 
     # Other
-    config.cmap            = "gnuplot" 
+    config.cmap            = "gist_stern" 
 
-    return config
+    return config 
@@ -52,7 +52,7 @@ def get_quijote_labels() -> Array:
     return Q
 
 
-def quijote(key, n_pix, split=0.5):
+def quijote(key, n_pix, split=0.9):
     key_train, key_valid = jr.split(key)
 
     data_shape = (1, n_pix, n_pix)
@@ -65,32 +65,39 @@ def quijote(key, n_pix, split=0.5):
 
     min = X.min()
     max = X.max()
-    X = (X - min) / (max - min) # ... -> [0, 1]
+    # X = (X - min) / (max - min) # ... -> [0, 1]
+    # X = 2.0 * (X - min) / (max - min) - 1.0 # ... -> [-1, 1]
+    X = (X - X.mean()) / X.std()
 
     # min = Q.min()
     # max = Q.max()
     # Q = (Q - min) / (max - min) # ... -> [0, 1]
 
-    scaler = Scaler() # [0,1] -> [-1,1]
+    n_train = int(split * len(X))
 
-    train_transform = transforms.Compose(
-        [
-            transforms.RandomHorizontalFlip(),
-            transforms.RandomVerticalFlip(),
-            transforms.Lambda(scaler.forward)
-        ]
-    )
-    valid_transform = transforms.Compose(
-        [transforms.Lambda(scaler.forward)]
-    )
+    # scaler = Scaler() # [0,1] -> [-1,1]
 
-    n_train = int(split * len(X))
-    train_dataset = MapDataset(
-        (X[:n_train], A[:n_train]), transform=train_transform
-    )
-    valid_dataset = MapDataset(
-        (X[n_train:], A[n_train:]), transform=valid_transform
-    )
+    # train_transform = transforms.Compose(
+    #     [
+    #         transforms.RandomHorizontalFlip(),
+    #         transforms.RandomVerticalFlip(),
+    #         # transforms.Lambda(scaler.forward)
+    #     ]
+    # )
+    # valid_transform = transforms.Compose(
+    #     [
+    #         transforms.RandomHorizontalFlip(),
+    #         transforms.RandomVerticalFlip(),
+    #         # transforms.Lambda(scaler.forward)
+    #     ]
+    # )
+
+    # train_dataset = MapDataset(
+    #     (X[:n_train], A[:n_train]), transform=train_transform
+    # )
+    # valid_dataset = MapDataset(
+    #     (X[n_train:], A[n_train:]), transform=valid_transform
+    # )
     # train_dataloader = TorchDataLoader(
     #     train_dataset, 
     #     data_shape=data_shape, 
@@ -128,6 +135,6 @@ def label_fn(key, n):
         data_shape=data_shape,
         context_shape=context_shape,
         parameter_dim=parameter_dim,
-        scaler=scaler,
+        scaler=None, #scaler,
         label_fn=label_fn
     )
@@ -51,6 +51,7 @@ def main():
         dataset,
         config,
         reload_opt_state=reload_opt_state,
+        plot_train_data=True,
         sharding=sharding,
         save_dir=root_dir
     )
 
@@ -303,4 +303,14 @@ @misc{batzolis
       archivePrefix={arXiv},
       primaryClass={cs.LG},
       url={https://arxiv.org/abs/2111.13606}, 
+}
+
+@misc{mixer,
+      title={MLP-Mixer: An all-MLP Architecture for Vision}, 
+      author={Ilya Tolstikhin and Neil Houlsby and Alexander Kolesnikov and Lucas Beyer and Xiaohua Zhai and Thomas Unterthiner and Jessica Yung and Andreas Steiner and Daniel Keysers and Jakob Uszkoreit and Mario Lucic and Alexey Dosovitskiy},
+      year={2021},
+      eprint={2105.01601},
+      archivePrefix={arXiv},
+      primaryClass={cs.CV},
+      url={https://arxiv.org/abs/2105.01601}, 
 }
Original file line number	Diff line number	Diff line change
`@@ -51,6 +51,7 @@ def main():`
`51`	`51`	`dataset,`
`52`	`52`	`config,`
`53`	`53`	`reload_opt_state=reload_opt_state,`
	`54`	`+ plot_train_data=True,`
`54`	`55`	`sharding=sharding,`
`55`	`56`	`save_dir=root_dir`
`56`	`57`	`)`