fix a bug in mc evaluation

Edward-Sun · Edward-Sun · commit 0b86740e48ea · 2023-10-25T21:47:23.000-04:00
diff --git a/README.md b/README.md
@@ -8,6 +8,8 @@
 
 <!-- # Dromedary -->
 
+### NeurIPS 2023 (Spotlight)
+
 ## Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
 
 </div>
diff --git a/llama_dromedary/llama_dromedary/generation.py b/llama_dromedary/llama_dromedary/generation.py
@@ -449,7 +449,7 @@ def score(
             params.max_seq_len,
             params.max_shared_seq_len,
         )
-        tokens = torch.full((bsz, total_len), self.tokenizer.pad_id).cuda().long()
+        tokens = torch.full((bsz, total_len), self.tokenizer.eos_id).cuda().long()
 
         for i, (prompt_t, target_t) in enumerate(zip(prompt_tokens, target_tokens)):
             tokens[i, : len(prompt_t)] = torch.tensor(prompt_t).long()
diff --git a/mc_evaluation/evaluate_hhh_eval.py b/mc_evaluation/evaluate_hhh_eval.py
@@ -9,7 +9,7 @@
 import numpy as np
 import tqdm
 
-from llama_dromedary.utils import setup_model_parallel, sync_model_parallel, load_model, llama_scoring
+from llama_dromedary import Llama
 
 
 def measure_multiple_choice_grade(samples):
@@ -24,7 +24,9 @@ def measure_multiple_choice_grade(samples):
     def argmax(array):
         """argmax with deterministic pseudorandom tie breaking."""
         max_indices = np.arange(len(array))[array == np.max(array)]
-        idx = int(hashlib.sha256(np.asarray(array).tobytes()).hexdigest(),16) % len(max_indices)
+        idx = int(hashlib.sha256(np.asarray(array).tobytes()).hexdigest(), 16) % len(
+            max_indices
+        )
         return max_indices[idx]
 
     for sample in samples:
@@ -64,21 +66,19 @@ def main(
     meta_prompt = "".join(data)
     meta_prompt = meta_prompt.strip()
 
-    global_rank, world_size = setup_model_parallel()
-    if global_rank > 0:
-        sys.stdout = open(os.devnull, "w")
-
     t0 = time.time()
-    generator = load_model(
-        ckpt_dir, tokenizer_path, global_rank, world_size,
-        max_seq_len, max_batch_size, max_shared_seq_len,
-        disable_cache=True,
+    generator = Llama.build(
+        ckpt_dir=ckpt_dir,
+        tokenizer_path=tokenizer_path,
+        max_seq_len=max_seq_len,
+        max_batch_size=max_batch_size,
+        max_shared_seq_len=max_shared_seq_len,
     )
     t1 = time.time()
-    loading_time = t1-t0
+    loading_time = t1 - t0
     print("Model loading time on %d: " % group_size, loading_time)
 
-    sync_model_parallel()
+    global_rank = int(os.environ.get("RANK", 0))
     tasks = ["harmless", "helpful", "honest", "other"]
 
     all_predictions = []
@@ -93,7 +93,15 @@ def main(
         # only show tqdm at rank 0
         for example in tqdm.tqdm(examples, disable=global_rank > 0):
             targets = list(example["target_scores"].keys())
-            log_prob = get_log_prob(generator, example, targets, meta_prompt, generate_prompt_fn, temperature, max_seq_len)
+            log_prob = get_log_prob(
+                generator,
+                example,
+                targets,
+                meta_prompt,
+                generate_prompt_fn,
+                temperature,
+                max_seq_len,
+            )
             full_pred = {}
             full_pred["choice"] = targets
             full_pred["log_prob"] = log_prob
@@ -108,7 +116,15 @@ def main(
     print(f"Overall HHH Eval MC grade over {len(all_predictions)} examples: {mc_grad}")
 
 
-def get_log_prob(generator, example, targets, meta_prompt, generate_prompt_fn, temperature, max_seq_len):
+def get_log_prob(
+    generator,
+    example,
+    targets,
+    meta_prompt,
+    generate_prompt_fn,
+    temperature,
+    max_seq_len,
+):
     answer_candidates = targets
 
     def truncate_seq(seq, prefix="", suffix=""):
@@ -121,7 +137,7 @@ def truncate_seq(seq, prefix="", suffix=""):
             tokenized_inputs = tokenized_inputs[-safe_seq_len:]
         seq = generator.tokenizer.decode(tokenized_inputs).strip()
         if flag:
-            seq= prefix + seq + suffix
+            seq = prefix + seq + suffix
         return seq
 
     inputs = truncate_seq(example["input"], prefix="... ")
@@ -149,7 +165,7 @@ def truncate_seq(seq, prefix="", suffix=""):
     all_prompts = [prompt_1, prompt_1, prompt_2, prompt_2]
     all_targets = [" A", " B", " A", " B"]
 
-    log_prob = llama_scoring(generator, all_prompts, all_targets, temperature)
+    log_prob = generator.score(generator, all_prompts, all_targets, temperature)
 
     aggregate_log_prob = [log_prob[0] + log_prob[3], log_prob[1] + log_prob[2]]
     return aggregate_log_prob
diff --git a/mc_evaluation/evaluate_truthfulqa_mc.py b/mc_evaluation/evaluate_truthfulqa_mc.py
@@ -7,7 +7,7 @@
 import time
 import tqdm
 
-from llama_dromedary.utils import setup_model_parallel, sync_model_parallel, load_model, llama_scoring
+from llama_dromedary import Llama
 
 from datasets import load_dataset
 
@@ -24,7 +24,9 @@ def measure_multiple_choice_grade(samples):
     def argmax(array):
         """argmax with deterministic pseudorandom tie breaking."""
         max_indices = np.arange(len(array))[array == np.max(array)]
-        idx = int(hashlib.sha256(np.asarray(array).tobytes()).hexdigest(),16) % len(max_indices)
+        idx = int(hashlib.sha256(np.asarray(array).tobytes()).hexdigest(), 16) % len(
+            max_indices
+        )
         return max_indices[idx]
 
     for sample in samples:
@@ -61,18 +63,16 @@ def main(
     meta_prompt = "".join(data)
     meta_prompt = meta_prompt.strip()
 
-    global_rank, world_size = setup_model_parallel()
-    if global_rank > 0:
-        sys.stdout = open(os.devnull, "w")
-
     t0 = time.time()
-    generator = load_model(
-        ckpt_dir, tokenizer_path, global_rank, world_size,
-        max_seq_len, max_batch_size, max_shared_seq_len,
-        disable_cache=True,
+    generator = Llama.build(
+        ckpt_dir=ckpt_dir,
+        tokenizer_path=tokenizer_path,
+        max_seq_len=max_seq_len,
+        max_batch_size=max_batch_size,
+        max_shared_seq_len=max_shared_seq_len,
     )
     t1 = time.time()
-    loading_time = t1-t0
+    loading_time = t1 - t0
     print("Model loading time on %d: " % group_size, loading_time)
 
     dataset = load_dataset("truthful_qa", "multiple_choice", split="validation")
@@ -83,20 +83,29 @@ def main(
         example = {}
         example["input"] = data_point["question"]
         example["target_scores"] = {}
-        mc1_choices = data_point["mc1_targets"]['choices']
-        mc1_scores = data_point["mc1_targets"]['labels']
+        mc1_choices = data_point["mc1_targets"]["choices"]
+        mc1_scores = data_point["mc1_targets"]["labels"]
 
         for choice, score in zip(mc1_choices, mc1_scores):
             example["target_scores"][choice] = score
         examples.append(example)
 
     predictions = []
 
-    sync_model_parallel()
+    global_rank = int(os.environ.get("RANK", 0))
+
     # only show tqdm at rank 0
     for example in tqdm.tqdm(examples, disable=global_rank > 0):
         targets = list(example["target_scores"].keys())
-        log_prob = get_log_prob(generator, example, targets, meta_prompt, generate_prompt_fn, temperature, max_seq_len)
+        log_prob = get_log_prob(
+            generator,
+            example,
+            targets,
+            meta_prompt,
+            generate_prompt_fn,
+            temperature,
+            max_seq_len,
+        )
         full_pred = {}
         full_pred["choice"] = targets
         full_pred["log_prob"] = log_prob
@@ -107,12 +116,19 @@ def main(
     print(f"MC1 grade: {mc_grad}")
 
 
-def get_log_prob(generator, example, targets, meta_prompt, generate_prompt_fn, temperature, max_seq_len):
+def get_log_prob(
+    generator,
+    example,
+    targets,
+    meta_prompt,
+    generate_prompt_fn,
+    temperature,
+    max_seq_len,
+):
     del max_seq_len
     answer_candidates = targets
     inputs = example["input"]
 
-
     input_story = f"""Question: {inputs}
 
 Answer: {'{}'} (true or false)
@@ -139,7 +155,7 @@ def get_log_prob(generator, example, targets, meta_prompt, generate_prompt_fn, t
         all_prompts.append(prompt)
         all_targets.append(" false")
 
-    log_prob = llama_scoring(generator, all_prompts, all_targets, temperature)
+    log_prob = generator.score(all_prompts, all_targets, temperature)
     true_log_prob = []
     for i in range(0, len(answer_candidates), 2):
         true_log_prob.append(log_prob[i] - log_prob[i + 1])

Original file line number	Diff line number	Diff line change
`@@ -449,7 +449,7 @@ def score(`
`449`	`449`	`params.max_seq_len,`
`450`	`450`	`params.max_shared_seq_len,`
`451`	`451`	`)`
`452`		`- tokens = torch.full((bsz, total_len), self.tokenizer.pad_id).cuda().long()`
	`452`	`+ tokens = torch.full((bsz, total_len), self.tokenizer.eos_id).cuda().long()`
`453`	`453`
`454`	`454`	`for i, (prompt_t, target_t) in enumerate(zip(prompt_tokens, target_tokens)):`
`455`	`455`	`tokens[i, : len(prompt_t)] = torch.tensor(prompt_t).long()`