fix syntax errors on roberta and lora

jxhe · jxhe · commit 8080aa6f8c8c · 2022-03-24T16:59:47.000-04:00
diff --git a/exps/run_en_ro.sh b/exps/run_en_ro.sh
@@ -38,6 +38,15 @@ ffn_adapter_init_option="lora"
 ffn_adapter_scalar="4"
 ffn_bn=512 # ffn bottleneck dim
 
+
+# lora params are not set
+if [ -z ${lora_alpha+x} ];
+then
+    lora_alpha=0
+    lora_init="lora"
+    lora_dropout=0
+fi
+
 # set to 1 for debug mode which only
 # uses 1600 training examples
 debug=0
@@ -48,13 +57,13 @@ report_to="none"
 label_smoothing_factor=0.1
 weight_decay=0.01
 
-# the prefix tuning baseline prefers the 
+# the prefix tuning baseline prefers the
 # commented hyperparam
 # label_smoothing_factor=0
 # weight_decay=0
 
 # note that the bsz argument is only effective at evaluation but
-# does not influence the training -- it is overridden by 
+# does not influence the training -- it is overridden by
 # max_tokens_per_batch
 bsz=10
 max_steps=50000
@@ -128,6 +137,9 @@ python -u examples/pytorch/translation/run_translation.py \
     --adam_epsilon 1e-6 \
     --dropout 0.1 \
     --attention_dropout 0.0 \
+    --lora_alpha ${lora_alpha} \
+    --lora_dropout ${lora_dropout} \
+    --lora_init ${lora_init} \
     --attn_mode ${attn_mode} \
     --attn_option ${attn_option} \
     --attn_composition ${attn_composition} \
diff --git a/exps/run_glue.sh b/exps/run_glue.sh
@@ -50,6 +50,35 @@ ffn_adapter_init_option="lora"
 ffn_adapter_scalar="2"
 ffn_bn=16 # ffn bottleneck dim
 
+# ----- lora -----
+# attn_mode="lora"
+# attn_option="none"
+# attn_composition="add"
+# attn_bn=16
+
+# set ffn_mode to be 'lora' to use
+# lora at ffn as well
+
+# ffn_mode="lora"
+# ffn_option="none"
+# ffn_adapter_layernorm_option="none"
+# ffn_adapter_init_option="bert"
+# ffn_adapter_scalar="1"
+# ffn_bn=16
+
+# lora_alpha=32
+# lora_dropout=0.1
+# lora_init="lora"
+
+
+# lora params are not set
+if [ -z ${lora_alpha+x} ];
+then
+    lora_alpha=0
+    lora_init="lora"
+    lora_dropout=0
+fi
+
 # set to 1 for debug mode which only
 # uses 1600 training examples
 debug=0
@@ -104,6 +133,7 @@ then
 fi
 
 
+
 # for seed in "${seed_list[@]}"; do
 
 exp_name=glue.${TASK_NAME}.am_${attn_mode}.ao_${attn_option}.fm_${ffn_mode}
@@ -133,6 +163,9 @@ python -u examples/pytorch/text-classification/run_glue.py \
     --adam_beta1 0.9 \
     --adam_beta2 0.98 \
     --adam_epsilon 1e-6 \
+    --lora_alpha ${lora_alpha} \
+    --lora_dropout ${lora_dropout} \
+    --lora_init ${lora_init} \
     --attn_mode ${attn_mode} \
     --attn_option ${attn_option} \
     --attn_composition ${attn_composition} \
diff --git a/exps/run_xsum.sh b/exps/run_xsum.sh
@@ -36,7 +36,7 @@ ffn_adapter_init_option="lora"
 ffn_adapter_scalar="4"
 ffn_bn=512 # ffn bottleneck dim
 
-# ----- prefix tuning baseline ----- 
+# ----- prefix tuning baseline -----
 # attn_mode="prefix"
 # attn_option="concat"
 # attn_composition="add"
@@ -49,7 +49,7 @@ ffn_bn=512 # ffn bottleneck dim
 # ffn_adapter_scalar="4"
 # ffn_bn=512 # ffn bottleneck dim
 
-# ----- Houlsby Adapter ----- 
+# ----- Houlsby Adapter -----
 # attn_mode="adapter"
 # attn_option="sequential"
 # attn_composition="add"
@@ -63,7 +63,7 @@ ffn_bn=512 # ffn bottleneck dim
 # ffn_bn=200 # ffn bottleneck dim
 
 
-# ----- FFN Scaled Parallel Adapter ----- 
+# ----- FFN Scaled Parallel Adapter -----
 # attn_mode="none"
 # attn_option="parallel"
 # attn_composition="add"
@@ -76,7 +76,7 @@ ffn_bn=512 # ffn bottleneck dim
 # ffn_adapter_scalar="4"
 # ffn_bn=512 # ffn bottleneck dim
 
-# ----- Prompt Tuning ----- 
+# ----- Prompt Tuning -----
 # attn_mode="prompt_tuning"
 # attn_option="parallel"
 # attn_composition="add"
@@ -89,7 +89,7 @@ ffn_bn=512 # ffn bottleneck dim
 # ffn_adapter_scalar="4"
 # ffn_bn=512 # ffn bottleneck dim
 
-# ----- bitfit ----- 
+# ----- bitfit -----
 # attn_mode="bitfit"
 # attn_option="parallel"
 # attn_composition="add"
@@ -102,6 +102,35 @@ ffn_bn=512 # ffn bottleneck dim
 # ffn_adapter_scalar="4"
 # ffn_bn=512 # ffn bottleneck dim
 
+# ----- lora -----
+# attn_mode="lora"
+# attn_option="none"
+# attn_composition="add"
+# attn_bn=16
+
+# # set ffn_mode to be 'lora' to use
+# # lora at ffn as well
+
+# ffn_mode="none"
+# ffn_option="none"
+# ffn_adapter_layernorm_option="none"
+# ffn_adapter_init_option="bert"
+# ffn_adapter_scalar="1"
+# ffn_bn=16
+
+# lora_alpha=32
+# lora_dropout=0.1
+# lora_init="lora"
+
+
+# lora params are not set
+if [ -z ${lora_alpha+x} ];
+then
+    lora_alpha=0
+    lora_init="lora"
+    lora_dropout=0
+fi
+
 
 # set to 1 for debug mode which only
 # uses 1600 training examples
@@ -161,13 +190,16 @@ SAVE=checkpoints/${dataset}/${DATE}/${exp_name}
 
 rm -rf ${SAVE}; mkdir -p ${SAVE}
 
-
 rm checkpoints/hf_model/downloads/*.lock
+rm checkpoints/hf_model/*.lock
 
 python -u examples/pytorch/summarization/run_summarization.py \
     --dataset_name 'xsum' \
     --model_name_or_path 'facebook/bart-large' \
     --cache_dir ${cache_dir} \
+    --lora_alpha ${lora_alpha} \
+    --lora_dropout ${lora_dropout} \
+    --lora_init ${lora_init} \
     --attn_mode ${attn_mode} \
     --attn_option ${attn_option} \
     --attn_composition ${attn_composition} \
diff --git a/src/transformers/models/bart/modeling_bart.py b/src/transformers/models/bart/modeling_bart.py
@@ -153,9 +153,9 @@ def __init__(
 
         if config.attn_mode == "lora":
             self.q_proj = Linear(embed_dim, embed_dim, r=config.attn_bn, lora_alpha=config.lora_alpha,
-                                 lora_dropout=config.lora_dropout)
+                                 lora_dropout=config.lora_dropout, lora_init=config.lora_init)
             self.v_proj = Linear(embed_dim, embed_dim, r=config.attn_bn, lora_alpha=config.lora_alpha,
-                                 lora_dropout=config.lora_dropout)
+                                 lora_dropout=config.lora_dropout, lora_init=config.lora_init)
         else:
             self.q_proj = nn.Linear(embed_dim, embed_dim, bias=bias)
             self.v_proj = nn.Linear(embed_dim, embed_dim, bias=bias)
diff --git a/src/transformers/models/mbart/modeling_mbart.py b/src/transformers/models/mbart/modeling_mbart.py
@@ -160,9 +160,9 @@ def __init__(
 
         if config.attn_mode == "lora":
             self.q_proj = Linear(embed_dim, embed_dim, r=config.attn_bn, lora_alpha=config.lora_alpha,
-                                 lora_dropout=config.lora_dropout)
+                                 lora_dropout=config.lora_dropout, lora_init=config.lora_init)
             self.v_proj = Linear(embed_dim, embed_dim, r=config.attn_bn, lora_alpha=config.lora_alpha,
-                                 lora_dropout=config.lora_dropout)
+                                 lora_dropout=config.lora_dropout, lora_init=config.lora_init)
         else:
             self.q_proj = nn.Linear(embed_dim, embed_dim, bias=bias)
             self.v_proj = nn.Linear(embed_dim, embed_dim, bias=bias)
@@ -404,9 +404,9 @@ def __init__(self, config: MBartConfig):
 
         if config.ffn_mode == 'lora':
             self.fc1 = Linear(self.embed_dim, config.encoder_ffn_dim, r=config.ffn_bn, lora_alpha=config.lora_alpha,
-                              lora_dropout=config.lora_dropout)
+                              lora_dropout=config.lora_dropout, lora_init=config.lora_init)
             self.fc2 = Linear(config.encoder_ffn_dim, self.embed_dim, r=config.ffn_bn, lora_alpha=config.lora_alpha,
-                              lora_dropout=config.lora_dropout)
+                              lora_dropout=config.lora_dropout, lora_init=config.lora_init)
         else:
             self.fc1 = nn.Linear(self.embed_dim, config.encoder_ffn_dim)
             self.fc2 = nn.Linear(config.encoder_ffn_dim, self.embed_dim)
@@ -528,9 +528,9 @@ def __init__(self, config: MBartConfig):
         self.encoder_attn_layer_norm = nn.LayerNorm(self.embed_dim)
         if config.ffn_mode == 'lora':
             self.fc1 = Linear(self.embed_dim, config.decoder_ffn_dim, r=config.ffn_bn, lora_alpha=config.lora_alpha,
-                              lora_dropout=config.lora_dropout)
+                              lora_dropout=config.lora_dropout, lora_init=config.lora_init)
             self.fc2 = Linear(config.decoder_ffn_dim, self.embed_dim, r=config.ffn_bn, lora_alpha=config.lora_alpha,
-                              lora_dropout=config.lora_dropout)
+                              lora_dropout=config.lora_dropout, lora_init=config.lora_init)
         else:
             self.fc1 = nn.Linear(self.embed_dim, config.decoder_ffn_dim)
             self.fc2 = nn.Linear(config.decoder_ffn_dim, self.embed_dim)
diff --git a/src/transformers/models/roberta/modeling_roberta.py b/src/transformers/models/roberta/modeling_roberta.py
@@ -176,9 +176,9 @@ def __init__(self, config, cache_key=None):
 
         if config.attn_mode == "lora":
             self.query = Linear(config.hidden_size, self.all_head_size, r=config.attn_bn, lora_alpha=config.lora_alpha,
-                                 lora_dropout=config.lora_dropout)
+                                 lora_dropout=config.lora_dropout, lora_init=config.lora_init)
             self.value = Linear(config.hidden_size, self.all_head_size, r=config.attn_bn, lora_alpha=config.lora_alpha,
-                                 lora_dropout=config.lora_dropout)
+                                 lora_dropout=config.lora_dropout, lora_init=config.lora_init)
         else:
             self.query = nn.Linear(config.hidden_size, self.all_head_size)
             self.value = nn.Linear(config.hidden_size, self.all_head_size)
@@ -202,14 +202,14 @@ def __init__(self, config, cache_key=None):
             if self.config.attn_option == 'cross_attn' or self.config.attn_option == 'cross_attn_relu':
                 self.ef_transform_layer_norm = nn.LayerNorm(config.hidden_size)
 
-        elif self.attn_mode == 'adapter':
-            self.ef_attn_adapter = Adapter_Layer(self.config,
-                                                 dropout=self.dropout,
+        elif self.attn_mode == 'adapter' and self.config.attn_option == 'parallel':
+            self.ef_attn_adapter = Adapter_Layer(d_model=config.hidden_size,
+                                                 dropout=config.attention_probs_dropout_prob,
                                                  bottleneck=self.config.attn_bn,
                                                  adapter_layernorm_option="in",
                                                  )
-        elif self.attn_mode != 'none':
-                raise ValueError("att_mode not supported")
+        # elif self.attn_mode != 'none':
+        #         raise ValueError("att_mode not supported")
 
     def transpose_for_scores(self, x):
         new_x_shape = x.size()[:-1] + (self.num_attention_heads, self.attention_head_size)
@@ -417,8 +417,8 @@ def __init__(self, config):
         self.config = config
 
         if config.attn_mode == "adapter" and config.attn_option == "sequential":
-            self.ef_attn_adapter = Adapter_Layer(self.config,
-                                                 dropout=self.dropout,
+            self.ef_attn_adapter = Adapter_Layer(d_model=config.hidden_size,
+                                                 dropout=config.attention_probs_dropout_prob,
                                                  bottleneck=self.config.attn_bn,
                                                  adapter_layernorm_option="in",
                                                  )
@@ -491,7 +491,7 @@ def __init__(self, config):
         super().__init__()
         if config.ffn_mode == 'lora':
             self.dense = Linear(config.hidden_size, config.intermediate_size, r=config.ffn_bn, lora_alpha=config.lora_alpha,
-                              lora_dropout=config.lora_dropout)
+                              lora_dropout=config.lora_dropout, lora_init=config.lora_init)
         else:
             self.dense = nn.Linear(config.hidden_size, config.intermediate_size)
         if isinstance(config.hidden_act, str):
@@ -511,7 +511,7 @@ def __init__(self, config):
         super().__init__()
         if config.ffn_mode == 'lora':
             self.dense = Linear(config.intermediate_size, config.hidden_size, r=config.ffn_bn, lora_alpha=config.lora_alpha,
-                              lora_dropout=config.lora_dropout)
+                              lora_dropout=config.lora_dropout, lora_init=config.lora_init)
         else:
             self.dense = nn.Linear(config.intermediate_size, config.hidden_size)
         self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)