fix: updated sitebench to report sub category score (#1282)

oscarqjh · web-flow · commit 0a065f3b305e · 2026-04-03T22:05:27.000+08:00
diff --git a/lmms_eval/tasks/sitebench/merge_results.py b/lmms_eval/tasks/sitebench/merge_results.py
@@ -208,6 +208,16 @@ def find_latest_sitebench_files(logs_dir: str) -> tuple[str | None, str | None]:
     return image_path, video_path
 
 
+SUBCATEGORIES = {
+    "3d information understanding",
+    "counting & existence",
+    "movement prediction & navigation",
+    "multi-view & cross-image reasoning",
+    "object localization & positioning",
+    "spatial relationship reasoning",
+}
+
+
 def print_results(name: str, stats: dict, category_stats: dict = None, random_acc: float = None):
     """Print formatted results."""
     print(f"\n{'='*60}")
@@ -223,6 +233,14 @@ def print_results(name: str, stats: dict, category_stats: dict = None, random_ac
         if random_acc is not None:
             print(f"Random Expected Accuracy: {random_acc*100:.2f}%")
 
+    # Print sub-category breakdown from metric_stats
+    metric_stats = stats.get("metric_stats", {})
+    subcat_stats = {k: v for k, v in metric_stats.items() if k in SUBCATEGORIES}
+    if subcat_stats:
+        subcat_df = stats_to_df(subcat_stats, "Sub-Category")
+        print("\nSub-Category Breakdown:")
+        print(subcat_df.to_string(index=False))
+
     if category_stats:
         cat_df = stats_to_df(category_stats, "Category")
         print("\nCategory Breakdown:")
@@ -354,23 +372,35 @@ def main():
 
         # Save to output file if requested
         if args.output:
+
+            def _stats_to_output(stats_dict: dict) -> dict:
+                """Convert a stats dict with acc/caa num/den to output format."""
+                out = {}
+                acc = stats_dict["acc_num"] / stats_dict["acc_den"] * 100 if stats_dict["acc_den"] > 0 else 0
+                caa = stats_dict["caa_num"] / stats_dict["caa_den"] * 100 if stats_dict["caa_den"] > 0 else 0
+                out["accuracy"] = acc
+                out["caa"] = caa
+                out["count"] = int(stats_dict["acc_den"])
+                return out
+
+            def _subcat_output(metric_stats: dict) -> dict:
+                """Extract sub-category scores from metric_stats."""
+                return {k: _stats_to_output(v) for k, v in metric_stats.items() if k in SUBCATEGORIES}
+
             output_data = {
                 "image": {
                     "file": image_path,
-                    "accuracy": (image_stats["overall"]["acc_num"] / image_stats["overall"]["acc_den"] * 100 if image_stats["overall"]["acc_den"] > 0 else 0),
-                    "caa": (image_stats["overall"]["caa_num"] / image_stats["overall"]["caa_den"] * 100 if image_stats["overall"]["caa_den"] > 0 else 0),
-                    "count": int(image_stats["overall"]["acc_den"]),
+                    **_stats_to_output(image_stats["overall"]),
+                    "subcategories": _subcat_output(image_stats.get("metric_stats", {})),
                 },
                 "video": {
                     "file": video_path,
-                    "accuracy": (video_stats["overall"]["acc_num"] / video_stats["overall"]["acc_den"] * 100 if video_stats["overall"]["acc_den"] > 0 else 0),
-                    "caa": (video_stats["overall"]["caa_num"] / video_stats["overall"]["caa_den"] * 100 if video_stats["overall"]["caa_den"] > 0 else 0),
-                    "count": int(video_stats["overall"]["acc_den"]),
+                    **_stats_to_output(video_stats["overall"]),
+                    "subcategories": _subcat_output(video_stats.get("metric_stats", {})),
                 },
                 "combined": {
-                    "accuracy": (combined_overall["acc_num"] / combined_overall["acc_den"] * 100 if combined_overall["acc_den"] > 0 else 0),
-                    "caa": (combined_overall["caa_num"] / combined_overall["caa_den"] * 100 if combined_overall["caa_den"] > 0 else 0),
-                    "count": int(combined_overall["acc_den"]),
+                    **_stats_to_output(combined_overall),
+                    "subcategories": _subcat_output(combined_metric),
                 },
             }
             with open(args.output, "w") as f:
diff --git a/lmms_eval/tasks/sitebench/multi_image_input/site_video_multiimage.yaml b/lmms_eval/tasks/sitebench/multi_image_input/site_video_multiimage.yaml
@@ -25,6 +25,42 @@ metric_list:
   - metric: chance_adjusted_acc
     aggregation: !function utils.spatial_aggregate_results
     higher_is_better: true
+  - metric: 3d_information_understanding_acc
+    aggregation: !function utils.aggregate_3d_information_understanding_acc
+    higher_is_better: true
+  - metric: 3d_information_understanding_caa
+    aggregation: !function utils.aggregate_3d_information_understanding_caa
+    higher_is_better: true
+  - metric: counting_and_existence_acc
+    aggregation: !function utils.aggregate_counting_and_existence_acc
+    higher_is_better: true
+  - metric: counting_and_existence_caa
+    aggregation: !function utils.aggregate_counting_and_existence_caa
+    higher_is_better: true
+  - metric: movement_prediction_and_navigation_acc
+    aggregation: !function utils.aggregate_movement_prediction_and_navigation_acc
+    higher_is_better: true
+  - metric: movement_prediction_and_navigation_caa
+    aggregation: !function utils.aggregate_movement_prediction_and_navigation_caa
+    higher_is_better: true
+  - metric: multiview_and_crossimage_reasoning_acc
+    aggregation: !function utils.aggregate_multiview_and_crossimage_reasoning_acc
+    higher_is_better: true
+  - metric: multiview_and_crossimage_reasoning_caa
+    aggregation: !function utils.aggregate_multiview_and_crossimage_reasoning_caa
+    higher_is_better: true
+  - metric: object_localization_and_positioning_acc
+    aggregation: !function utils.aggregate_object_localization_and_positioning_acc
+    higher_is_better: true
+  - metric: object_localization_and_positioning_caa
+    aggregation: !function utils.aggregate_object_localization_and_positioning_caa
+    higher_is_better: true
+  - metric: spatial_relationship_reasoning_acc
+    aggregation: !function utils.aggregate_spatial_relationship_reasoning_acc
+    higher_is_better: true
+  - metric: spatial_relationship_reasoning_caa
+    aggregation: !function utils.aggregate_spatial_relationship_reasoning_caa
+    higher_is_better: true
 lmms_eval_specific_kwargs:
   default:
     post_prompt: "Give me the answer letter directly. The best answer is:"
diff --git a/lmms_eval/tasks/sitebench/multi_image_input/utils.py b/lmms_eval/tasks/sitebench/multi_image_input/utils.py
@@ -7,6 +7,18 @@
 
 from lmms_eval.tasks.sitebench.utils import (
     UpperLetters,
+    aggregate_3d_information_understanding_acc,
+    aggregate_3d_information_understanding_caa,
+    aggregate_counting_and_existence_acc,
+    aggregate_counting_and_existence_caa,
+    aggregate_movement_prediction_and_navigation_acc,
+    aggregate_movement_prediction_and_navigation_caa,
+    aggregate_multiview_and_crossimage_reasoning_acc,
+    aggregate_multiview_and_crossimage_reasoning_caa,
+    aggregate_object_localization_and_positioning_acc,
+    aggregate_object_localization_and_positioning_caa,
+    aggregate_spatial_relationship_reasoning_acc,
+    aggregate_spatial_relationship_reasoning_caa,
     base_cache_dir,
     cache_name,
     spatial_aggregate_results,
diff --git a/lmms_eval/tasks/sitebench/site_image.yaml b/lmms_eval/tasks/sitebench/site_image.yaml
@@ -25,6 +25,42 @@ metric_list:
   - metric: chance_adjusted_acc
     aggregation: !function utils.spatial_aggregate_results
     higher_is_better: true
+  - metric: 3d_information_understanding_acc
+    aggregation: !function utils.aggregate_3d_information_understanding_acc
+    higher_is_better: true
+  - metric: 3d_information_understanding_caa
+    aggregation: !function utils.aggregate_3d_information_understanding_caa
+    higher_is_better: true
+  - metric: counting_and_existence_acc
+    aggregation: !function utils.aggregate_counting_and_existence_acc
+    higher_is_better: true
+  - metric: counting_and_existence_caa
+    aggregation: !function utils.aggregate_counting_and_existence_caa
+    higher_is_better: true
+  - metric: movement_prediction_and_navigation_acc
+    aggregation: !function utils.aggregate_movement_prediction_and_navigation_acc
+    higher_is_better: true
+  - metric: movement_prediction_and_navigation_caa
+    aggregation: !function utils.aggregate_movement_prediction_and_navigation_caa
+    higher_is_better: true
+  - metric: multiview_and_crossimage_reasoning_acc
+    aggregation: !function utils.aggregate_multiview_and_crossimage_reasoning_acc
+    higher_is_better: true
+  - metric: multiview_and_crossimage_reasoning_caa
+    aggregation: !function utils.aggregate_multiview_and_crossimage_reasoning_caa
+    higher_is_better: true
+  - metric: object_localization_and_positioning_acc
+    aggregation: !function utils.aggregate_object_localization_and_positioning_acc
+    higher_is_better: true
+  - metric: object_localization_and_positioning_caa
+    aggregation: !function utils.aggregate_object_localization_and_positioning_caa
+    higher_is_better: true
+  - metric: spatial_relationship_reasoning_acc
+    aggregation: !function utils.aggregate_spatial_relationship_reasoning_acc
+    higher_is_better: true
+  - metric: spatial_relationship_reasoning_caa
+    aggregation: !function utils.aggregate_spatial_relationship_reasoning_caa
+    higher_is_better: true
 lmms_eval_specific_kwargs:
   default:
     pre_prompt: ""
diff --git a/lmms_eval/tasks/sitebench/site_video.yaml b/lmms_eval/tasks/sitebench/site_video.yaml
@@ -25,6 +25,42 @@ metric_list:
   - metric: chance_adjusted_acc
     aggregation: !function utils.spatial_aggregate_results
     higher_is_better: true
+  - metric: 3d_information_understanding_acc
+    aggregation: !function utils.aggregate_3d_information_understanding_acc
+    higher_is_better: true
+  - metric: 3d_information_understanding_caa
+    aggregation: !function utils.aggregate_3d_information_understanding_caa
+    higher_is_better: true
+  - metric: counting_and_existence_acc
+    aggregation: !function utils.aggregate_counting_and_existence_acc
+    higher_is_better: true
+  - metric: counting_and_existence_caa
+    aggregation: !function utils.aggregate_counting_and_existence_caa
+    higher_is_better: true
+  - metric: movement_prediction_and_navigation_acc
+    aggregation: !function utils.aggregate_movement_prediction_and_navigation_acc
+    higher_is_better: true
+  - metric: movement_prediction_and_navigation_caa
+    aggregation: !function utils.aggregate_movement_prediction_and_navigation_caa
+    higher_is_better: true
+  - metric: multiview_and_crossimage_reasoning_acc
+    aggregation: !function utils.aggregate_multiview_and_crossimage_reasoning_acc
+    higher_is_better: true
+  - metric: multiview_and_crossimage_reasoning_caa
+    aggregation: !function utils.aggregate_multiview_and_crossimage_reasoning_caa
+    higher_is_better: true
+  - metric: object_localization_and_positioning_acc
+    aggregation: !function utils.aggregate_object_localization_and_positioning_acc
+    higher_is_better: true
+  - metric: object_localization_and_positioning_caa
+    aggregation: !function utils.aggregate_object_localization_and_positioning_caa
+    higher_is_better: true
+  - metric: spatial_relationship_reasoning_acc
+    aggregation: !function utils.aggregate_spatial_relationship_reasoning_acc
+    higher_is_better: true
+  - metric: spatial_relationship_reasoning_caa
+    aggregation: !function utils.aggregate_spatial_relationship_reasoning_caa
+    higher_is_better: true
 lmms_eval_specific_kwargs:
   default:
     post_prompt: "Give me the answer letter directly. The best answer is:"
diff --git a/lmms_eval/tasks/sitebench/utils.py b/lmms_eval/tasks/sitebench/utils.py
@@ -14,11 +14,21 @@
     "counting & existence",
     "spatial relationship reasoning",
     "object localization & positioning",
-    "depth & 3d understanding",
-    "movement navigation & intent prediction",
+    "3d information understanding",
+    "movement prediction & navigation",
     "multi-view & cross-image reasoning",
 }
 
+# Mapping from category name to metric key suffix
+CATEGORY_TO_METRIC_KEY = {
+    "3d information understanding": "3d_information_understanding",
+    "counting & existence": "counting_and_existence",
+    "movement prediction & navigation": "movement_prediction_and_navigation",
+    "multi-view & cross-image reasoning": "multiview_and_crossimage_reasoning",
+    "object localization & positioning": "object_localization_and_positioning",
+    "spatial relationship reasoning": "spatial_relationship_reasoning",
+}
+
 # Get the cache directory from the config file
 hf_home = os.getenv("HF_HOME", "~/.cache/huggingface/")
 # cache_dir = os.path.join(hf_home, cache_dir)
@@ -228,11 +238,18 @@ def spatial_process_results(doc, results):
         "total": 1.0 - 1.0 / len(all_choices),
     }
 
-    return {
+    result = {
         "accuracy": accuracy_dict,
         "chance_adjusted_acc": chance_adjusted_accuracy_dict,
     }
 
+    # Per-category accuracy and chance-adjusted accuracy
+    for cat_name, metric_key in CATEGORY_TO_METRIC_KEY.items():
+        result[f"{metric_key}_acc"] = {"score": score, "category": category, "target_category": cat_name}
+        result[f"{metric_key}_caa"] = {"score": adjusted_score, "category": category, "target_category": cat_name, "total": 1.0 - 1.0 / len(all_choices)}
+
+    return result
+
 
 def spatial_aggregate_results(results):
     total_correct, total_examples = 0, 0
@@ -275,3 +292,71 @@ def spatial_aggregate_results(results):
     #     f.write("=" * 50 + "\n")
 
     return round(overall_accuracy, 5)
+
+
+def _aggregate_category_acc(results, target_category: str) -> float:
+    total_correct = 0
+    total_examples = 0
+    for r in results:
+        if r["category"] == target_category:
+            total_correct += r["score"]
+            total_examples += 1
+    return round((total_correct / total_examples) * 100, 5) if total_examples > 0 else 0.0
+
+
+def _aggregate_category_caa(results, target_category: str) -> float:
+    total_adjusted = 0.0
+    total_baseline = 0.0
+    for r in results:
+        if r["category"] == target_category:
+            total_adjusted += r["score"]
+            total_baseline += r["total"]
+    return round((total_adjusted / total_baseline) * 100, 5) if total_baseline > 0 else 0.0
+
+
+def aggregate_3d_information_understanding_acc(results):
+    return _aggregate_category_acc(results, "3d information understanding")
+
+
+def aggregate_3d_information_understanding_caa(results):
+    return _aggregate_category_caa(results, "3d information understanding")
+
+
+def aggregate_counting_and_existence_acc(results):
+    return _aggregate_category_acc(results, "counting & existence")
+
+
+def aggregate_counting_and_existence_caa(results):
+    return _aggregate_category_caa(results, "counting & existence")
+
+
+def aggregate_movement_prediction_and_navigation_acc(results):
+    return _aggregate_category_acc(results, "movement prediction & navigation")
+
+
+def aggregate_movement_prediction_and_navigation_caa(results):
+    return _aggregate_category_caa(results, "movement prediction & navigation")
+
+
+def aggregate_multiview_and_crossimage_reasoning_acc(results):
+    return _aggregate_category_acc(results, "multi-view & cross-image reasoning")
+
+
+def aggregate_multiview_and_crossimage_reasoning_caa(results):
+    return _aggregate_category_caa(results, "multi-view & cross-image reasoning")
+
+
+def aggregate_object_localization_and_positioning_acc(results):
+    return _aggregate_category_acc(results, "object localization & positioning")
+
+
+def aggregate_object_localization_and_positioning_caa(results):
+    return _aggregate_category_caa(results, "object localization & positioning")
+
+
+def aggregate_spatial_relationship_reasoning_acc(results):
+    return _aggregate_category_acc(results, "spatial relationship reasoning")
+
+
+def aggregate_spatial_relationship_reasoning_caa(results):
+    return _aggregate_category_caa(results, "spatial relationship reasoning")