Integrate llvm/llvm-project@038591a1 (#23356)

Muzammiluddin-Syed-ECE · web-flow · commit ca60cabdcd16 · 2026-02-02T23:47:38.000-05:00
Fixes: - Update reduction test after llvm/llvm-project@5a221c3. Reverts: - Dropped local revert of llvm/llvm-project#169614 due to #22649. --------- Signed-off-by: Muzammiluddin Syed <muzasyed@amd.com>
diff --git a/compiler/src/iree/compiler/Codegen/LLVMGPU/test/reduction_pipeline_cuda.mlir b/compiler/src/iree/compiler/Codegen/LLVMGPU/test/reduction_pipeline_cuda.mlir
@@ -41,7 +41,8 @@ hal.executable.variant @cuda target(<"cuda", "cuda-nvptx-fb">) {
 //     CHECK-DAG:    %[[CST_ACC:.+]] = arith.constant dense<0.000000e+00> : vector<1x1x1xf32>
 //     CHECK-DAG:    gpu.thread_id  x
 //         CHECK:    %[[R0:.+]] = scf.for %{{.*}} = %c0 to %c2560 step %c256 iter_args(%[[A0:.+]] = %[[CST_ACC]]) -> (vector<1x1x1xf32>) {
-//         CHECK:      %[[V:.+]] = vector.transfer_read {{.*}} : memref<512x10240xf32, {{.*}}>, vector<1x4xf32>
+//         CHECK:      memref.expand_shape {{.*}} : memref<1x1024xf32, {{.*}}> into memref<1x256x4xf32, {{.*}}>
+//         CHECK:      %[[V:.+]] = vector.transfer_read {{.*}} : memref<1x256x4xf32, {{.*}}>, vector<1x4xf32>
 //         CHECK:      %[[STRIDED:.+]] = vector.insert_strided_slice %[[V]], {{.*}} : vector<1x4xf32> into vector<1x1x1x1x1x4xf32>
 //         CHECK:      %[[REDUCE:.+]] = vector.multi_reduction <add>, %[[STRIDED]], %[[CST_ACC]] [1, 3, 5] : vector<1x1x1x1x1x4xf32> to vector<1x1x1xf32>
 //         CHECK:      %[[ADD:.+]] = arith.addf %[[REDUCE]], %[[A0]] : vector<1x1x1xf32>
@@ -104,7 +105,8 @@ hal.executable.variant @cuda target(<"cuda", "cuda-nvptx-fb">) {
 //         CHECK:  func.func @warp_reduction_broadcast_dispatch()
 //    CHECK-SAME:      translation_info = #[[TRANSLATION_INFO]]
 //         CHECK:    scf.for {{.*}} -> (vector<1x1x1xf32>) {
-//         CHECK:      vector.transfer_read {{.*}} : memref<512x10240xf32, {{.*}}>, vector<1x4xf32>
+//         CHECK:      memref.expand_shape {{.*}} : memref<1x1024xf32, {{.*}}> into memref<1x256x4xf32, {{.*}}>
+//         CHECK:      vector.transfer_read {{.*}} : memref<1x256x4xf32, {{.*}}>, vector<1x4xf32>
 //         CHECK:      vector.multi_reduction <add>, {{.*}} [1, 3, 5] : vector<1x1x1x1x1x4xf32> to vector<1x1x1xf32>
 //         CHECK:      arith.addf {{.*}} : vector<1x1x1xf32>
 //         CHECK:      scf.yield
@@ -144,7 +146,8 @@ hal.executable.variant @cuda target(<"cuda", "cuda-nvptx-fb">) {
 //         CHECK:  func.func @softmax()
 //    CHECK-SAME:      translation_info = #[[TRANSLATION_INFO]]
 //         CHECK:    scf.for {{.*}} -> (vector<1x1x1xf32>) {
-//         CHECK:      vector.transfer_read {{.*}} : memref<12x128x40960xf32, {{.*}}>, vector<1x4xf32>
+//         CHECK:      memref.expand_shape {{.*}} : memref<1x1x4096xf32, {{.*}}> into memref<1x1x1024x4xf32, {{.*}}>
+//         CHECK:      vector.transfer_read {{.*}} : memref<1x1x1024x4xf32, {{.*}}>, vector<1x4xf32>
 //         CHECK:      vector.multi_reduction <maxnumf>, {{.*}} {{.*}} : vector<1x1x1x1x1x4xf32> to vector<1x1x1xf32>
 //         CHECK:      arith.maxnumf {{.*}} : vector<1x1x1xf32>
 //         CHECK:      scf.yield
@@ -201,7 +204,8 @@ hal.executable.variant @cuda target(<"cuda", "cuda-nvptx-fb">) {
 //         CHECK:  func.func @softmax_singlesubgroup()
 //    CHECK-SAME:      translation_info = #[[TRANSLATION_INFO]]
 //         CHECK:    scf.for {{.*}} -> (vector<1x1x1xf32>) {
-//         CHECK:      vector.transfer_read {{.*}} : memref<12x256x40960xf32, {{.*}}>, vector<1x4xf32>
+//         CHECK:      memref.expand_shape {{.*}} : memref<1x1x128xf32, {{.*}}> into memref<1x1x32x4xf32, {{.*}}>
+//         CHECK:      vector.transfer_read {{.*}} : memref<1x1x32x4xf32, {{.*}}>, vector<1x4xf32>
 //         CHECK:      vector.multi_reduction <maxnumf>, {{.*}} {{.*}} : vector<1x1x1x1x1x4xf32> to vector<1x1x1xf32>
 //         CHECK:      arith.maxnumf {{.*}} : vector<1x1x1xf32>
 //         CHECK:      scf.yield
@@ -518,7 +522,10 @@ hal.executable private @i4_dequant_matvec {
 //     CHECK-DAG:   %[[C1:.+]] = arith.constant 1 : index
 //     CHECK-DAG:   %[[CST:.+]] = arith.constant dense<0.000000e+00> : vector<1x1x1xf16>
 //         CHECK:   scf.for %{{.+}} = %[[C0]] to %[[C32]] step %[[C1]] iter_args(%{{.*}} = %[[CST]]) -> (vector<1x1x1xf16>)
-//         CHECK:     vector.transfer_read {{.*}} : memref<4096x32x128xi4, {{.*}}>, vector<1x4xi4>
+//         CHECK:     memref.expand_shape {{.*}} : memref<1x128xf16, {{.*}}> into memref<1x32x4xf16, {{.*}}>
+//         CHECK:     memref.expand_shape {{.*}} : memref<1x1x128xi4, {{.*}}> into memref<1x1x32x4xi4, {{.*}}>
+//         CHECK:     vector.transfer_read {{.*}} : memref<1x32x4xf16, {{.*}}>, vector<1x4xf16>
+//         CHECK:     vector.transfer_read {{.*}} : memref<1x1x32x4xi4, {{.*}}>, vector<1x4xi4>
 //         CHECK:     arith.extui %{{.*}} : vector<1x1x1x1x1x4xi4> to vector<1x1x1x1x1x4xi32>
 //         CHECK:     arith.uitofp %{{.*}} : vector<1x1x1x1x1x4xi32> to vector<1x1x1x1x1x4xf16>
 //         CHECK:     arith.subf %{{.*}}, %{{.*}} : vector<1x1x1x1x1x4xf16>
diff --git a/third_party/llvm-project b/third_party/llvm-project
@@ -1 +1 @@
-Subproject commit 0a976587336721b774b6456623c4a025cc3284ea
+Subproject commit c373d7632ac1fe8374b7f2b9536d7e746ed24786