Update benchmarks.yml

juliagmt-google · web-flow · commit 33ce83ca5a73 · 2024-12-12T17:14:17.000-08:00
diff --git a/.github/workflows/benchmarks.yml b/.github/workflows/benchmarks.yml
@@ -71,38 +71,68 @@ jobs:
         with:
           repository: openxla/xla  # Replace with your fork if needed
           path: xla
-      
-      # - name: Build XLA with GPU support
-      #   working-directory: xla
-      #   continue-on-error: true
-      #   run: bazel build --build_tag_filters=-no_oss,requires-gpu-nvidia,gpu,-rocm-only --test_tag_filters=-no_oss,requires-gpu-nvidia,gpu,-rocm-only,requires-gpu-sm75-only,requires-gpu-sm60,requires-gpu-sm70,-requires-gpu-sm80,-requires-gpu-sm80-only,-requires-gpu-sm90,-requires-gpu-sm90-only,-requires-gpu-sm100,-requires-gpu-sm100-only,-requires-gpu-amd --config=warnings --config=rbe_linux_cuda_nvcc --run_under=//tools/ci_build/gpu_build:parallel_gpu_execute --repo_env=TF_CUDA_COMPUTE_CAPABILITIES=7.5 --@cuda_driver//:enable_forward_compatibility=true --test_output=errors --verbose_failures --keep_going --nobuild_tests_only --profile=profile.json.gz --flaky_test_attempts=3 --jobs=150 --bes_upload_mode=fully_async --nobuild -- //xla/... //build_tools/... @tsl//tsl/...
-     
-      # - name: Run XLA tests with GPU
-      #   working-directory: xla
-      #   continue-on-error: true
-      #   run: bazel test --build_tag_filters=-no_oss,requires-gpu-nvidia,gpu,-rocm-only --test_tag_filters=-no_oss,requires-gpu-nvidia,gpu,-rocm-only,requires-gpu-sm75-only,requires-gpu-sm60,requires-gpu-sm70,-requires-gpu-sm80,-requires-gpu-sm80-only,-requires-gpu-sm90,-requires-gpu-sm90-only,-requires-gpu-sm100,-requires-gpu-sm100-only,-requires-gpu-amd --config=warnings --config=rbe_linux_cuda_nvcc --run_under=//tools/ci_build/gpu_build:parallel_gpu_execute --repo_env=TF_CUDA_COMPUTE_CAPABILITIES=7.5 --@cuda_driver//:enable_forward_compatibility=true --test_output=errors --verbose_failures --keep_going --nobuild_tests_only --profile=profile.json.gz --flaky_test_attempts=3 --jobs=150 --bes_upload_mode=fully_async -- //xla/... //build_tools/... @tsl//tsl/...
+          
+      - name: Configure XLA
+        working-directory: xla
+        run: ./configure.py --backend CUDA --nccl
 
-      # - name: Run Profile Analysis
-      #   working-directory: xla
-      #   continue-on-error: true
-      #   run: bazel analyze-profile profile.json.gz
+      - name: Set TF_CPP_MAX_VLOG_LEVEL
+        working-directory: xla
+        run: echo "TF_CPP_MAX_VLOG_LEVEL=1" >> $GITHUB_ENV
         
-      # - name: Get GPU spec
-      #   working-directory: xla
-      #   continue-on-error: true
-      #   run: nvidia-smi
       - name: Wait For Connection
         uses: google-ml-infra/actions/ci_connection@main
         with:
           halt-dispatch-input: ${{ inputs.halt-for-connection }}
-
-      - name: Configure XLA
+      
+      - name: Build XLA with GPU support with RBE
         working-directory: xla
-        run: ./configure.py --backend CUDA --nccl
+        continue-on-error: true
+        run: bazel build --build_tag_filters=-no_oss,requires-gpu-nvidia,gpu,-rocm-only --test_tag_filters=-no_oss,requires-gpu-nvidia,gpu,-rocm-only,requires-gpu-sm75-only,requires-gpu-sm60,requires-gpu-sm70,-requires-gpu-sm80,-requires-gpu-sm80-only,-requires-gpu-sm90,-requires-gpu-sm90-only,-requires-gpu-sm100,-requires-gpu-sm100-only,-requires-gpu-amd --config=warnings --config=rbe_linux_cuda_nvcc --run_under=//tools/ci_build/gpu_build:parallel_gpu_execute --repo_env=TF_CUDA_COMPUTE_CAPABILITIES=7.5 --@cuda_driver//:enable_forward_compatibility=true --test_output=errors --verbose_failures --keep_going --nobuild_tests_only --profile=profile.json.gz --flaky_test_attempts=3 --jobs=150 --bes_upload_mode=fully_async --nobuild -- //xla/... //build_tools/... @tsl//tsl/...
+     
+      - name: Run XLA tests with GPU support with RBE
+        working-directory: xla
+        continue-on-error: true
+        run: bazel test --build_tag_filters=-no_oss,requires-gpu-nvidia,gpu,-rocm-only --test_tag_filters=-no_oss,requires-gpu-nvidia,gpu,-rocm-only,requires-gpu-sm75-only,requires-gpu-sm60,requires-gpu-sm70,-requires-gpu-sm80,-requires-gpu-sm80-only,-requires-gpu-sm90,-requires-gpu-sm90-only,-requires-gpu-sm100,-requires-gpu-sm100-only,-requires-gpu-amd --config=warnings --config=rbe_linux_cuda_nvcc --run_under=//tools/ci_build/gpu_build:parallel_gpu_execute --repo_env=TF_CUDA_COMPUTE_CAPABILITIES=7.5 --@cuda_driver//:enable_forward_compatibility=true --test_output=errors --verbose_failures --keep_going --nobuild_tests_only --profile=profile.json.gz --flaky_test_attempts=3 --jobs=150 --bes_upload_mode=fully_async -- //xla/... //build_tools/... @tsl//tsl/...
 
-      - name: Set TF_CPP_MAX_VLOG_LEVEL
+      - name: Run Profile Analysis
         working-directory: xla
-        run: echo "TF_CPP_MAX_VLOG_LEVEL=1" >> $GITHUB_ENV
+        continue-on-error: true
+        run: bazel analyze-profile profile.json.gz
+        
+      - name: Get GPU spec
+        working-directory: xla
+        continue-on-error: true
+        run: nvidia-smi
+          
+      - name: Build run_hlo_module with GPU
+        working-directory: openxla
+        run: bazel build -c opt --dynamic_mode=off xla/tools:run_hlo_module --config=cuda
+
+      - name: Run HLO Module Benchmarks withg GPU in xla/tests/fuzz
+        working-directory: openxla
+        continue-on-error: true
+        run: |
+          for file in xla/tests/fuzz/*.hlo; do
+            filename=$(basename "$file")
+            # Skip expected failed hlo files.
+            if [[ "$filename" == "rand_000060.hlo" || "$filename" == "rand_000067.hlo" || "$filename" == "rand_000072.hlo" ]]; then
+              echo "Skipping benchmark on $file"
+              continue
+            fi
+            echo "Running benchmark on $file"
+            ./bazel-bin/xla/tools/run_hlo_module --input_format=hlo --platform=GPU "$file"
+          done
+
+      - name: Run HLO Module Benchmarks withg GPU in xla/service/gpu
+        working-directory: openxla
+        continue-on-error: true
+        run: |
+          find xla/service/gpu -name "*.hlo" -print0 | while IFS= read -r -d $'\0' hlo_file; do
+            echo "Running: $hlo_file"
+            ./bazel-bin/xla/tools/run_hlo_module --input_format=hlo --platform=GPU "$hlo_file"
+            echo "--------------------------------------------------"
+          done
 
       - name: Build hlo_runner_main
         working-directory: xla