PaddlePaddle
diff --git a/‎configs/beit/beit_base_p16_224_ft_1k.yaml
+123 b/‎configs/beit/beit_base_p16_224_ft_1k.yaml
+123
diff --git a/‎configs/beit/beit_base_p16_224_pt_1k.yaml
+104 b/‎configs/beit/beit_base_p16_224_pt_1k.yaml
+104
diff --git a/‎configs/byol/byol_clas_r50.yaml
+10-4 b/‎configs/byol/byol_clas_r50.yaml
+10-4
diff --git a/‎configs/byol/byol_r50_IM.yaml
+7-2 b/‎configs/byol/byol_r50_IM.yaml
+7-2
diff --git a/‎configs/cait/cait_m36_384.yaml
+5-1 b/‎configs/cait/cait_m36_384.yaml
+5-1
diff --git a/‎configs/cait/cait_m48_448.yaml
+5-1 b/‎configs/cait/cait_m48_448.yaml
+5-1
diff --git a/‎configs/cait/cait_s24_224.yaml
+5-1 b/‎configs/cait/cait_s24_224.yaml
+5-1
diff --git a/‎configs/cait/cait_s24_384.yaml
+5-1 b/‎configs/cait/cait_s24_384.yaml
+5-1
diff --git a/‎configs/cait/cait_s36_384.yaml
+5-1 b/‎configs/cait/cait_s36_384.yaml
+5-1
@@ -0,0 +1,123 @@
+epochs: 100
+output_dir: output_dir
+seed: 0
+device: gpu
+
+model:
+  name: BEiTFTWrapper
+  architecture:
+      name: VisionTransformerForFinetune
+      img_size: 224
+      embed_dim: 768
+      patch_size: 16
+      depth: 12
+      num_heads: 12
+      mlp_ratio: 4
+      qkv_bias: True
+      drop_path_rate: 0.1
+      init_values: 0.1
+      use_abs_pos_emb: False
+      use_rel_pos_bias: True
+  head:
+    name: BEiTFTHead
+    num_classes: 1000
+    in_channels: 768
+
+dataloader:
+  train:
+    loader:
+      num_workers: 8
+      use_shared_memory: True
+    sampler:
+      batch_size: 128
+      shuffle: True
+      drop_last: True
+    dataset:
+      name: ImageNet
+      dataroot: data/ILSVRC2012/train/
+      return_label: True
+      transforms:
+        - name: RandomResizedCrop
+          size: 224
+          scale: [0.08, 1.]
+          interpolation: 'bicubic'
+        - name: RandomHorizontalFlip
+        - name: AutoAugment
+          config_str: 'rand-m9-mstd0.5-inc1'
+          interpolation: 'bicubic'
+          img_size: 224
+          mean: [0.5, 0.5, 0.5]
+          std: [0.5, 0.5, 0.5]
+        - name: Transpose
+        - name: NormalizeImage
+          scale: 1.0/255.0
+          mean: [0.5, 0.5, 0.5]
+          std: [0.5, 0.5, 0.5]
+        - name: RandomErasing
+          prob: 0.25
+          mode: 'pixel'
+          max_count: 1
+      batch_transforms:
+        - name: Mixup
+          mixup_alpha: 0.8
+          prob: 1.
+          switch_prob: 0.5
+          mode: 'batch'
+          cutmix_alpha: 1.0
+  val:
+    loader:
+      num_workers: 8
+      use_shared_memory: True
+    sampler:
+      batch_size: 64
+      shuffle: false
+      drop_last: false
+    dataset:
+      name: ImageNet
+      dataroot: data/ILSVRC2012/val
+      return_label: True
+      transforms:
+        - name: Resize
+          size: 256
+          interpolation: 'bicubic'
+        - name: CenterCrop
+          size: 224
+        - name: Transpose
+        - name: Normalize
+          mean: [123.675, 116.28, 103.53]
+          std: [58.395, 57.12, 57.375]
+
+lr_scheduler:
+  name: LinearWarmup
+  learning_rate:
+    name: CosineAnnealingDecay
+    learning_rate: 4e-3
+    T_max: 100
+    eta_min: 1e-6
+  warmup_steps: 20
+  start_lr: 0
+  end_lr: 4e-3
+
+optimizer:
+  name: AdamW
+  beta1: 0.9
+  beta2: 0.999
+  weight_decay: 0.05
+  epsilon: 1e-8
+  exclude_from_weight_decay: ["pos_embed","cls_token",".bias","norm","gamma"]
+  layer_decay: 0.65
+
+log_config:
+    name: LogHook
+    interval: 10
+
+checkpoint:
+  name: CheckpointHook
+  by_epoch: true
+  interval: 1
+
+custom_config:
+  - name: EvaluateHook
+
+vdl_config:
+    name: VisualHook
@@ -0,0 +1,104 @@
+epochs: 800
+output_dir: output_dir
+seed: 0
+device: gpu
+
+model:
+    name: BEiTPTWrapper
+    architecture:
+        name: VisionTransformerForMaskedImageModeling
+        img_size: 224
+        embed_dim: 768
+        patch_size: 16
+        depth: 12
+        num_heads: 12
+        mlp_ratio: 4
+        use_abs_pos_emb: False
+        use_rel_pos_bias: False
+        use_shared_rel_pos_bias: True
+        init_values: 0.1
+        drop_path_rate: 0.1
+    head:
+        name: BEiTPTHead
+        num_classes: 1000
+        in_channels: 768
+    d_vae:
+        name: dall-e
+        weight_path: 'dvae/'
+        image_size: 112
+
+dataloader:
+  train:
+    loader:
+      num_workers: 0
+      use_shared_memory: False
+    sampler:
+      batch_size: 128
+      shuffle: True
+      drop_last: True
+    dataset:
+      name: BEiT_ImageNet
+      dataroot: data/ILSVRC2012/train/
+      common_transforms:
+        - name: ToRGB
+        - name: ColorJitter
+          brightness: 0.4
+          contrast: 0.4
+          saturation: 0.4
+          hue: 0.4
+        - name: RandomHorizontalFlip
+        - name: RandomResizedCropAndInterpolationWithTwoPic
+          size: 224
+          second_size: 112
+          interpolation: 'bicubic'
+          second_interpolation: 'lanczos'
+      patch_transforms:
+        - name: Transpose
+        - name: NormalizeImage
+          scale: 1.0/255.0
+          mean: [0.485, 0.456, 0.406]
+          std: [0.229, 0.224, 0.225]
+      visual_token_transforms:
+        - name: Transpose
+        - name: VisualTokenMap
+          mode: 'map_pixels'
+          scale: 255
+      masking_generator:
+          input_size: 14
+          num_masking_patches: 75
+          max_num_patches: None
+          min_num_patches: 16
+
+lr_scheduler:
+  name: LinearWarmup
+  learning_rate:
+    name: CosineAnnealingDecay
+    learning_rate: 3e-3
+    T_max: 800
+    eta_min: 1e-5
+  warmup_steps: 10
+  start_lr: 0
+  end_lr: 3e-3
+
+optimizer:
+  name: AdamW
+  beta1: 0.9
+  beta2: 0.999
+  weight_decay: 0.05
+  epsilon: 1e-8
+  exclude_from_weight_decay: ["pos_embed","cls_token",".bias","norm","gamma"]
+  grad_clip:
+    name: global_norm
+    value: 3.0
+
+log_config:
+    name: LogHook
+    interval: 1
+
+checkpoint:
+  name: CheckpointHook
+  by_epoch: True
+  interval: 1
+
+vdl_config:
+    name: VisualHook
@@ -1,5 +1,7 @@
 epochs: 100
 output_dir: output_dir
+seed: 0
+device: gpu
 
 model:
   name: ByolClassification
@@ -16,7 +18,9 @@ model:
 
 dataloader:
   train:
-    num_workers: 8
+    loader:
+      num_workers: 8
+      use_shared_memory: True
     sampler:
       batch_size: 128
       shuffle: true
@@ -30,11 +34,13 @@ dataloader:
         - name: RandomHorizontalFlip
         - name: Resize
           size: [224,224]
-          interpolation: bicubic 
+          interpolation: bicubic
         - name: ByolNormalize
         - name: Clip
   val:
-    num_workers: 8
+    loader:
+      num_workers: 8
+      use_shared_memory: True
     sampler:
       batch_size: 128
       shuffle: false
@@ -49,7 +55,7 @@ dataloader:
         - name: CenterCrop
           size: 224
         - name: ByolNormalize
-        - name: Clip 
+        - name: Clip
 
 lr_scheduler:
   name: ByolLRScheduler
 
@@ -1,8 +1,11 @@
 epochs: 300
 use_byol_iters: True
 total_images: 1281167
-global_batch_size: 4096  # 128 * 4 * 8
+global_batch_size: 4096
 output_dir: output_dir
+seed: 0
+device: gpu
+
 model:
   name: BYOL
   backbone:
@@ -33,7 +36,9 @@ model:
 
 dataloader:
   train:
-    num_workers: 8
+    loader:
+      num_workers: 8
+      use_shared_memory: True
     sampler:
       batch_size: 128
       shuffle: True
 
@@ -1,5 +1,7 @@
 epochs: 300
 output_dir: output_dir
+seed: 0
+device: gpu
 
 model:
   name: CaitWrapper
@@ -18,7 +20,9 @@ model:
 
 dataloader:
   train:
-    num_workers: 8
+    loader:
+      num_workers: 8
+      use_shared_memory: True
     sampler:
       batch_size: 128
       shuffle: true
 
@@ -1,5 +1,7 @@
 epochs: 300
 output_dir: output_dir
+seed: 0
+device: gpu
 
 model:
   name: CaitWrapper
@@ -18,7 +20,9 @@ model:
 
 dataloader:
   train:
-    num_workers: 8
+    loader:
+      num_workers: 8
+      use_shared_memory: True
     sampler:
       batch_size: 128
       shuffle: true
 
@@ -1,5 +1,7 @@
 epochs: 300
 output_dir: output_dir
+seed: 0
+device: gpu
 
 model:
   name: CaitWrapper
@@ -18,7 +20,9 @@ model:
 
 dataloader:
   train:
-    num_workers: 8
+    loader:
+      num_workers: 8
+      use_shared_memory: True
     sampler:
       batch_size: 128
       shuffle: true
 
@@ -1,5 +1,7 @@
 epochs: 300
 output_dir: output_dir
+seed: 0
+device: gpu
 
 model:
   name: CaitWrapper
@@ -18,7 +20,9 @@ model:
 
 dataloader:
   train:
-    num_workers: 8
+    loader:
+      num_workers: 8
+      use_shared_memory: True
     sampler:
       batch_size: 128
       shuffle: true
 
@@ -1,5 +1,7 @@
 epochs: 300
 output_dir: output_dir
+seed: 0
+device: gpu
 
 model:
   name: CaitWrapper
@@ -18,7 +20,9 @@ model:
 
 dataloader:
   train:
-    num_workers: 8
+    loader:
+      num_workers: 8
+      use_shared_memory: True
     sampler:
       batch_size: 128
       shuffle: true