fix: adjust perf_test logic

zhangjipeng · zhangjipeng · commit 5ff973b3e248 · 2026-06-05T10:29:36.000+08:00
Signed-off-by: zhangjipeng &lt;zhangjipeng@xiaomi.com&gt;
diff --git a/perf_tests/test.cpp b/perf_tests/test.cpp
@@ -40,6 +40,7 @@
     #include <sched.h>
     #include <sys/resource.h>
     #include <unistd.h>
+    #include <errno.h>
 #endif
 
 static uint8_t* test_buffer = NULL;
@@ -191,7 +192,12 @@ static void set_process_priority(void)
     SetPriorityClass(GetCurrentProcess(), HIGH_PRIORITY_CLASS);
     SetThreadPriority(GetCurrentThread(), THREAD_PRIORITY_HIGHEST);
 #else
-    setpriority(PRIO_PROCESS, 0, -20);
+    errno = 0;
+    if (setpriority(PRIO_PROCESS, 0, -20) != 0 && errno != 0) {
+        std::cerr << "[Perf Warning] setpriority(-20) failed (errno=" << errno
+                  << "); results may be noisy. Run as root or with CAP_SYS_NICE."
+                  << std::endl;
+    }
 #endif
 }
 
@@ -202,10 +208,18 @@ static void set_cpu_affinity(void)
     SetProcessAffinityMask(GetCurrentProcess(), mask);
     SetThreadAffinityMask(GetCurrentThread(), mask);
 #else
+    // Avoid CPU 0: on Linux it usually handles the most interrupts and is the
+    // noisiest core. Pin to the last online CPU instead.
+    long ncpu = sysconf(_SC_NPROCESSORS_ONLN);
+    int target = (ncpu > 1) ? (int)(ncpu - 1) : 0;
     cpu_set_t cpuset;
     CPU_ZERO(&cpuset);
-    CPU_SET(0, &cpuset);
-    sched_setaffinity(0, sizeof(cpuset), &cpuset);
+    CPU_SET(target, &cpuset);
+    if (sched_setaffinity(0, sizeof(cpuset), &cpuset) != 0) {
+        std::cerr << "[Perf Warning] sched_setaffinity(cpu=" << target
+                  << ") failed (errno=" << errno
+                  << "); results may be noisy due to core migration." << std::endl;
+    }
 #endif
 }
 
diff --git a/perf_tests/test.h b/perf_tests/test.h
@@ -238,7 +238,9 @@ class PerformanceTest : public ::testing::Test
         );
 
         BenchmarkResult result;
-        result.avg_ms = std::accumulate(times.begin(), times.end(), 0.0) / times.size();
+        // Use trimmed data for avg as well, to keep the same statistical basis
+        // as std_dev/min/max/mid which are all computed on filtered_times.
+        result.avg_ms = std::accumulate(filtered_times.begin(), filtered_times.end(), 0.0) / filtered_times.size();
         result.min_ms = filtered_times.front();
         result.max_ms = filtered_times.back();
         result.iterations = run_count;
@@ -335,7 +337,9 @@ class PerformanceTest : public ::testing::Test
                       << ", total: " << (result.total_time_ms / 1000.0) << "s)" << std::endl;
         } else {
             const auto& baseline = baseline_data[key];
-            double diff_percent = ((result.mid_ms - baseline.mid_ms) / baseline.mid_ms) * 100.0;
+            // Use the trimmed mean (avg_ms) consistently for diff, direction and
+            // the t-test below, so the whole decision path shares one statistic.
+            double diff_percent = ((result.avg_ms - baseline.avg_ms) / baseline.avg_ms) * 100.0;
 
             // Statistical comparison
             double t_stat, p_value;
@@ -348,23 +352,23 @@ class PerformanceTest : public ::testing::Test
                 // No statistically significant difference
                 std::cout << "[No Significant Change] " << test_name << ": "
                           << std::setprecision(6)
-                          << "median: " << result.mid_ms << " ms "
-                          << "(baseline: " << baseline.mid_ms << " ms, "
+                          << "avg: " << result.avg_ms << " ms "
+                          << "(baseline: " << baseline.avg_ms << " ms, "
                           << "diff: " << diff_percent << "%, "
                           << "p=" << p_value << ", not significant)" << std::endl;
             } else if (!exceeds_threshold) {
                 // Statistically significant but below threshold - acceptable
                 std::cout << "[Acceptable Change] " << test_name << ": "
                           << std::setprecision(6)
-                          << "median: " << result.mid_ms << " ms "
-                          << "(baseline: " << baseline.mid_ms << " ms, "
+                          << "avg: " << result.avg_ms << " ms "
+                          << "(baseline: " << baseline.avg_ms << " ms, "
                           << "diff: " << diff_percent << "%, "
                           << "below " << PERF_REGRESSION_THRESHOLD << "% threshold)" << std::endl;
-            } else if (result.mid_ms < baseline.mid_ms) {
+            } else if (result.avg_ms < baseline.avg_ms) {
                 // Statistically significant improvement above threshold
                 std::cout << "[Performance Improve " << std::abs(diff_percent) << "%] " << test_name << ": "
-                          << std::setprecision(6) << "median: " << result.mid_ms << " ms "
-                          << "(baseline: " << baseline.mid_ms << " ms, "
+                          << std::setprecision(6) << "avg: " << result.avg_ms << " ms "
+                          << "(baseline: " << baseline.avg_ms << " ms, "
                           << "t=" << t_stat << ", p=" << p_value << ")" << std::endl;
             } else {
                 // Statistically significant regression above threshold - FAIL