Merge pull request #164 from microsoft/add_mp_20_checkpoint

ClaudioZeni · web-flow · commit 9bb07cd5ecf0 · 2025-05-28T15:17:00.000+01:00
Add mp 20 checkpoint
diff --git a/README.md b/README.md
@@ -61,7 +61,8 @@ git lfs install
 
 ## Get started with a pre-trained model
 We provide checkpoints of an unconditional base version of MatterGen as well as fine-tuned models for these properties:
-* `mattergen_base`: unconditional base model
+* `mattergen_base`: unconditional base model trained on Alex-MP-20
+* `mp_20_base`: unconditional base model trained on MP-20
 * `chemical_system`: fine-tuned model conditioned on chemical system
 * `space_group`: fine-tuned model conditioned on space group
 * `dft_mag_density`: fine-tuned model conditioned on magnetic density from DFT
diff --git a/checkpoints/.gitattributes b/checkpoints/.gitattributes
@@ -5,3 +5,4 @@ ml_bulk_modulus/checkpoints/last.ckpt filter=lfs diff=lfs merge=lfs -text
 space_group/checkpoints/last.ckpt filter=lfs diff=lfs merge=lfs -text
 chemical_system_energy_above_hull/checkpoints/last.ckpt filter=lfs diff=lfs merge=lfs -text
 dft_mag_density_hhi_score/checkpoints/last.ckpt filter=lfs diff=lfs merge=lfs -text
+mp_20_base/checkpoints/last.ckpt filter=lfs diff=lfs merge=lfs -text
diff --git a/checkpoints/mp_20_base/checkpoints/last.ckpt b/checkpoints/mp_20_base/checkpoints/last.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ffb80e4425a6f99f479a67b8cd111885d45117234e8947ff77eb3a55df420b9a
+size 461369442
diff --git a/checkpoints/mp_20_base/config.yaml b/checkpoints/mp_20_base/config.yaml
@@ -0,0 +1,185 @@
+auto_resume: true
+checkpoint_path: null
+data_module:
+  _recursive_: true
+  _target_: mattergen.common.data.datamodule.CrystDataModule
+  average_density: 0.05771451654022283
+  batch_size:
+    test: 8
+    train: 64
+    val: 8
+  dataset_transforms:
+  - _partial_: true
+    _target_: mattergen.common.data.dataset_transform.filter_sparse_properties
+  max_epochs: 900
+  num_workers:
+    test: 0
+    train: 0
+    val: 0
+  properties: []
+  root_dir: /mnt/data_cache/mattergen-release-cache/mp_20
+  test_dataset:
+    _target_: mattergen.common.data.dataset.CrystalDataset.from_cache_path
+    cache_path: /mnt/data_cache/mattergen-release-cache/mp_20/test
+    dataset_transforms:
+    - _partial_: true
+      _target_: mattergen.common.data.dataset_transform.filter_sparse_properties
+    properties: []
+    transforms:
+    - _partial_: true
+      _target_: mattergen.common.data.transform.symmetrize_lattice
+    - _partial_: true
+      _target_: mattergen.common.data.transform.set_chemical_system_string
+  train_dataset:
+    _target_: mattergen.common.data.dataset.CrystalDataset.from_cache_path
+    cache_path: /mnt/data_cache/mattergen-release-cache/mp_20/train
+    dataset_transforms:
+    - _partial_: true
+      _target_: mattergen.common.data.dataset_transform.filter_sparse_properties
+    properties: []
+    transforms:
+    - _partial_: true
+      _target_: mattergen.common.data.transform.symmetrize_lattice
+    - _partial_: true
+      _target_: mattergen.common.data.transform.set_chemical_system_string
+  transforms:
+  - _partial_: true
+    _target_: mattergen.common.data.transform.symmetrize_lattice
+  - _partial_: true
+    _target_: mattergen.common.data.transform.set_chemical_system_string
+  val_dataset:
+    _target_: mattergen.common.data.dataset.CrystalDataset.from_cache_path
+    cache_path: /mnt/data_cache/mattergen-release-cache/mp_20/val
+    dataset_transforms:
+    - _partial_: true
+      _target_: mattergen.common.data.dataset_transform.filter_sparse_properties
+    properties: []
+    transforms:
+    - _partial_: true
+      _target_: mattergen.common.data.transform.symmetrize_lattice
+    - _partial_: true
+      _target_: mattergen.common.data.transform.set_chemical_system_string
+lightning_module:
+  _target_: mattergen.diffusion.lightning_module.DiffusionLightningModule
+  diffusion_module:
+    _target_: mattergen.diffusion.diffusion_module.DiffusionModule
+    corruption:
+      _target_: mattergen.diffusion.corruption.multi_corruption.MultiCorruption
+      discrete_corruptions:
+        atomic_numbers:
+          _target_: mattergen.diffusion.corruption.d3pm_corruption.D3PMCorruption
+          d3pm:
+            _target_: mattergen.diffusion.d3pm.d3pm.MaskDiffusion
+            dim: 101
+            schedule:
+              _target_: mattergen.diffusion.d3pm.d3pm.create_discrete_diffusion_schedule
+              kind: standard
+              num_steps: 1000
+          offset: 1
+      sdes:
+        cell:
+          _target_: mattergen.common.diffusion.corruption.LatticeVPSDE.from_vpsde_config
+          vpsde_config:
+            beta_max: 20
+            beta_min: 0.1
+            limit_density: 0.05771451654022283
+            limit_var_scaling_constant: 0.25
+        pos:
+          _target_: mattergen.common.diffusion.corruption.NumAtomsVarianceAdjustedWrappedVESDE
+          limit_info_key: num_atoms
+          sigma_max: 5.0
+          wrapping_boundary: 1.0
+    loss_fn:
+      _target_: mattergen.common.loss.MaterialsLoss
+      d3pm_hybrid_lambda: 0.01
+      include_atomic_numbers: true
+      include_cell: true
+      include_pos: true
+      reduce: sum
+      weights:
+        atomic_numbers: 1.0
+        cell: 1.0
+        pos: 0.1
+    model:
+      _target_: mattergen.denoiser.GemNetTDenoiser
+      atom_type_diffusion: mask
+      denoise_atom_types: true
+      gemnet:
+        _target_: mattergen.common.gemnet.gemnet.GemNetT
+        atom_embedding:
+          _target_: mattergen.common.gemnet.layers.embedding_block.AtomEmbedding
+          emb_size: 512
+          with_mask_type: true
+        cutoff: 7.0
+        emb_size_atom: 512
+        emb_size_edge: 512
+        latent_dim: 512
+        max_cell_images_per_dim: 5
+        max_neighbors: 50
+        num_blocks: 4
+        num_targets: 1
+        otf_graph: true
+        regress_stress: true
+        scale_file: /scratch/amlt_code/mattergen/common/gemnet/gemnet-dT.json
+      hidden_dim: 512
+      property_embeddings: {}
+      property_embeddings_adapt: {}
+    pre_corruption_fn:
+      _target_: mattergen.property_embeddings.SetEmbeddingType
+      dropout_fields_iid: false
+      p_unconditional: 0.2
+  optimizer_partial:
+    _partial_: true
+    _target_: torch.optim.Adam
+    lr: 0.0001
+  scheduler_partials:
+  - frequency: 1
+    interval: epoch
+    monitor: loss_train
+    scheduler:
+      _partial_: true
+      _target_: torch.optim.lr_scheduler.ReduceLROnPlateau
+      factor: 0.6
+      min_lr: 1.0e-06
+      patience: 100
+      verbose: true
+    strict: true
+load_original: false
+params: {}
+trainer:
+  _target_: pytorch_lightning.Trainer
+  accelerator: gpu
+  accumulate_grad_batches: 1
+  callbacks:
+  - _target_: pytorch_lightning.callbacks.LearningRateMonitor
+    log_momentum: false
+    logging_interval: step
+  - _target_: pytorch_lightning.callbacks.ModelCheckpoint
+    every_n_epochs: 1
+    filename: '{epoch}-{loss_val:.2f}'
+    mode: min
+    monitor: loss_val
+    save_last: true
+    save_top_k: 1
+    verbose: false
+  - _target_: pytorch_lightning.callbacks.TQDMProgressBar
+    refresh_rate: 50
+  - _target_: mattergen.common.data.callback.SetPropertyScalers
+  check_val_every_n_epoch: 5
+  devices: 8
+  gradient_clip_algorithm: value
+  gradient_clip_val: 0.5
+  logger:
+    _target_: pytorch_lightning.loggers.WandbLogger
+    job_type: train
+    project: crystal-generation
+    settings:
+      _save_requirements: false
+      _target_: wandb.Settings
+      start_method: fork
+  max_epochs: 900
+  num_nodes: 1
+  precision: 32
+  strategy:
+    _target_: pytorch_lightning.strategies.ddp.DDPStrategy
+    find_unused_parameters: true
diff --git a/mattergen/common/utils/data_classes.py b/mattergen/common/utils/data_classes.py
@@ -22,6 +22,7 @@
     "ml_bulk_modulus",
     "dft_mag_density_hhi_score",
     "chemical_system_energy_above_hull",
+    "mp_20_base",
 ]
 
 

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+version https://git-lfs.github.com/spec/v1`
	`2`	`+oid sha256:ffb80e4425a6f99f479a67b8cd111885d45117234e8947ff77eb3a55df420b9a`
	`3`	`+size 461369442`
Original file line number	Diff line number	Diff line change
`@@ -22,6 +22,7 @@`
`22`	`22`	`"ml_bulk_modulus",`
`23`	`23`	`"dft_mag_density_hhi_score",`
`24`	`24`	`"chemical_system_energy_above_hull",`
	`25`	`+ "mp_20_base",`
`25`	`26`	`]`
`26`	`27`
`27`	`28`