erwei-xilinx
diff --git a/‎mlir/test/Conversion/AIRToAIE/air_channel_different_loop_depths.mlir‎
Lines changed: 2 additions & 2 deletions b/‎mlir/test/Conversion/AIRToAIE/air_channel_different_loop_depths.mlir‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎mlir/test/Conversion/AIRToAIE/air_channel_n_buffer_rotation.mlir‎
Lines changed: 5 additions & 5 deletions b/‎mlir/test/Conversion/AIRToAIE/air_channel_n_buffer_rotation.mlir‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎mlir/test/Conversion/AIRToAIE/air_channel_pad.mlir‎
Lines changed: 2 additions & 2 deletions b/‎mlir/test/Conversion/AIRToAIE/air_channel_pad.mlir‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎mlir/test/Conversion/AIRToAIE/air_channel_prefix_suffix_bd.mlir‎
Lines changed: 1 addition & 1 deletion b/‎mlir/test/Conversion/AIRToAIE/air_channel_prefix_suffix_bd.mlir‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎mlir/test/Conversion/AIRToAIE/air_channel_to_locks_core_to_core.mlir‎
Lines changed: 42 additions & 42 deletions b/‎mlir/test/Conversion/AIRToAIE/air_channel_to_locks_core_to_core.mlir‎
Lines changed: 42 additions & 42 deletions
diff --git a/‎mlir/test/Conversion/AIRToAIE/air_channel_to_locks_ping_pong.mlir‎
Lines changed: 37 additions & 37 deletions b/‎mlir/test/Conversion/AIRToAIE/air_channel_to_locks_ping_pong.mlir‎
Lines changed: 37 additions & 37 deletions
diff --git a/‎mlir/test/Conversion/AIRToAIE/air_channel_to_locks_scf_if.mlir‎
Lines changed: 16 additions & 16 deletions b/‎mlir/test/Conversion/AIRToAIE/air_channel_to_locks_scf_if.mlir‎
Lines changed: 16 additions & 16 deletions
@@ -13,8 +13,8 @@
 // loops via while(true) and the BD keeps accepting data from the same buffer.
 
 // CHECK: aie.device
-// CHECK:         %[[TILE:.*]] = aie.tile(2, 3)
-// CHECK:         %[[BUF:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[TILE:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[BUF:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // Verify single cycling BD (NOT sequential tasks):
 // CHECK:    aie.mem(%[[TILE]])  {
 
@@ -11,11 +11,11 @@
 // This tests the N-buffer rotation detection in getRepeatCounts().
 
 // CHECK: aie.device
-// CHECK:         %[[TILE:.*]] = aie.tile(2, 3)
-// CHECK:         %[[BUF3:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[BUF2:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[BUF1:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[BUF0:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[TILE:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[BUF3:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[BUF2:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[BUF1:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[BUF0:.*]] = aie.buffer(%[[TILE]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // Verify circular BD chain: bb1 -> bb2 -> bb3 -> bb4 -> bb1 (loops back)
 // CHECK:    aie.mem(%[[TILE]])  {
 
@@ -11,8 +11,8 @@
 // as const_pad_before/const_pad_after in the memtile DMA.
 
 // CHECK: aie.device
-// CHECK:         %[[TILE_L2:.*]] = aie.tile(2, 1)
-// CHECK:         %[[TILE_L1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[TILE_L2:.*]] = aie.tile(2, 1)
+// CHECK-DAG:         %[[TILE_L1:.*]] = aie.tile(2, 3)
 
 // CHECK:       aie.memtile_dma(%[[TILE_L2]])
 // The MM2S DMA BD from memtile to compute tile should have padding
 
@@ -12,7 +12,7 @@
 // This tests the prefix+suffix detection in getRepeatCounts().
 
 // CHECK: aie.device
-// CHECK:         %[[TILE:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[TILE:.*]] = aie.tile(2, 3)
 
 // Verify 2-BD circular chain: bb1 -> bb2 -> bb1 (loops back)
 // Without the prefix+suffix collapse, this would generate 5 BDs.
 
@@ -9,14 +9,14 @@
 
 // one-to-one communication
 // CHECK: aie.device
-// CHECK:         %[[VAL_1:.*]] = aie.tile(2, 3)
-// CHECK:         %[[VAL_2:.*]] = aie.tile(2, 4)
-// CHECK:         %[[VAL_3:.*]] = aie.lock(%[[VAL_1]], 1)
-// CHECK:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 0)
-// CHECK:         %[[VAL_5:.*]] = aie.lock(%[[VAL_2]], 1)
-// CHECK:         %[[VAL_6:.*]] = aie.lock(%[[VAL_2]], 0)
-// CHECK:         %[[VAL_7:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_8:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[VAL_2:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.lock(%[[VAL_1]], 1)
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 0)
+// CHECK-DAG:         %[[VAL_5:.*]] = aie.lock(%[[VAL_2]], 1)
+// CHECK-DAG:         %[[VAL_6:.*]] = aie.lock(%[[VAL_2]], 0)
+// CHECK-DAG:         %[[VAL_7:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_8:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // CHECK:    aie.mem(%[[VAL_2]])  {
 // CHECK:           aie.dma_start(S2MM, 0, ^bb1, ^bb2)
@@ -88,14 +88,14 @@ func.func @one_to_one() {
 
 // two-to-two parallel dataflow
 // CHECK: aie.device
-// CHECK:         %[[VAL_1:.*]] = aie.tile(2, 3)
-// CHECK:         %[[VAL_2:.*]] = aie.tile(3, 3)
-// CHECK:         %[[VAL_3:.*]] = aie.tile(2, 4)
-// CHECK:         %[[VAL_4:.*]] = aie.tile(3, 4)
-// CHECK:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_4]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_3]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_15:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_16:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[VAL_2:.*]] = aie.tile(3, 3)
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.tile(3, 4)
+// CHECK-DAG:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_4]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_3]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_15:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_16:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // CHECK:         aie.flow(%[[VAL_3]], DMA : 0, %[[VAL_4]], DMA : 0)
 // CHECK:         aie.flow(%[[VAL_1]], DMA : 0, %[[VAL_2]], DMA : 0)
@@ -133,14 +133,14 @@ func.func @two_to_two() {
 
 // one-to-two core-to-core broadcast
 // CHECK: aie.device
-// CHECK:         %[[VAL_1:.*]] = aie.tile(2, 3)
-// CHECK:         %[[VAL_2:.*]] = aie.tile(3, 3)
-// CHECK:         %[[VAL_3:.*]] = aie.tile(2, 4)
-// CHECK:         %[[VAL_4:.*]] = aie.tile(3, 4)
-// CHECK:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_4]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_3]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_15:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_16:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[VAL_2:.*]] = aie.tile(3, 3)
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.tile(3, 4)
+// CHECK-DAG:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_4]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_3]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_15:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_16:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // CHECK:         aie.flow(%[[VAL_1]], DMA : 0, %[[VAL_2]], DMA : 0)
 // CHECK:         aie.flow(%[[VAL_1]], DMA : 0, %[[VAL_4]], DMA : 0)
@@ -189,10 +189,10 @@ func.func @one_to_two() {
 
 // Core-to-core cascade flow
 // CHECK: aie.device
-// CHECK:         %[[tile_2_3:.*]] = aie.tile(2, 3)
-// CHECK:         %[[tile_2_4:.*]] = aie.tile(2, 4)
-// CHECK:         %[[tile_2_5:.*]] = aie.tile(2, 5)
-// CHECK:         %[[tile_2_6:.*]] = aie.tile(2, 6)
+// CHECK-DAG:         %[[tile_2_3:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[tile_2_4:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[tile_2_5:.*]] = aie.tile(2, 5)
+// CHECK-DAG:         %[[tile_2_6:.*]] = aie.tile(2, 6)
 // CHECK:         aie.core(%[[tile_2_6]])
 // CHECK:           %[[CST:.*]] = arith.constant 0 : i32
 // CHECK:           linalg.add
@@ -334,10 +334,10 @@ func.func @cascade(%arg0: memref<2048xi32>, %arg1: memref<2048xi32>) {
 
 // Core-to-core cascade flow; collapse memref shape using memref.collapse_shape, to enforce 1D vector for aie.put/get_cascade.
 // CHECK: aie.device
-// CHECK:         %[[tile_2_3:.*]] = aie.tile(2, 3)
-// CHECK:         %[[tile_2_4:.*]] = aie.tile(2, 4)
-// CHECK:         %[[tile_2_5:.*]] = aie.tile(2, 5)
-// CHECK:         %[[tile_2_6:.*]] = aie.tile(2, 6)
+// CHECK-DAG:         %[[tile_2_3:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[tile_2_4:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[tile_2_5:.*]] = aie.tile(2, 5)
+// CHECK-DAG:         %[[tile_2_6:.*]] = aie.tile(2, 6)
 // CHECK:         aie.core(%[[tile_2_6]])
 // CHECK:           %[[CST:.*]] = arith.constant 0 : i32
 // CHECK:           linalg.add
@@ -484,8 +484,8 @@ module {
 // Test cascade flattening with 2D memref (32x64 = 2048 elements, same total as 1D test)
 // The memref is flattened to 1D before tiling for cascade transfer
 // CHECK: aie.device
-// CHECK:         %[[tile_2_3:.*]] = aie.tile(2, 3)
-// CHECK:         %[[tile_2_4:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[tile_2_3:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[tile_2_4:.*]] = aie.tile(2, 4)
 // CHECK:         aie.core(%[[tile_2_4]])
 // CHECK:           memref.collapse_shape %{{.*}} {{.*}}[0, 1]
 // CHECK:           scf.for %[[arg:.*]] = %c0{{.*}} to %c2048{{.*}} step %c16{{.*}} {
@@ -531,8 +531,8 @@ module {
 // Test cascade flattening with 4D memref (2x4x8x32 = 2048 elements)
 // The memref is flattened from 4D to 1D before tiling for cascade transfer
 // CHECK: aie.device
-// CHECK:         %[[tile_2_3:.*]] = aie.tile(2, 3)
-// CHECK:         %[[tile_2_4:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[tile_2_3:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[tile_2_4:.*]] = aie.tile(2, 4)
 // CHECK:         aie.core(%[[tile_2_4]])
 // CHECK:           memref.collapse_shape %{{.*}} {{.*}}[0, 1, 2, 3]
 // CHECK:           scf.for %[[arg:.*]] = %c0{{.*}} to %c2048{{.*}} step %c16{{.*}} {
@@ -577,8 +577,8 @@ module {
 
 // Test cascade with bf16 element type (cascade width 512 bits = 32 bf16 elements per tile)
 // CHECK: aie.device
-// CHECK:         %[[tile_2_3:.*]] = aie.tile(2, 3)
-// CHECK:         %[[tile_2_4:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[tile_2_3:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[tile_2_4:.*]] = aie.tile(2, 4)
 // CHECK:         aie.core(%[[tile_2_4]])
 // CHECK:           memref.collapse_shape %{{.*}} {{.*}}[0, 1]
 // CHECK:           scf.for %[[arg:.*]] = %c0{{.*}} to %c1024{{.*}} step %c32{{.*}} {
@@ -624,10 +624,10 @@ module {
 // Core-to-core cascade flow; vectorizing channel.put/get with for loops, to fulfill the AIE cascade width requirment.
 // With pre-flattening: the memref is collapsed first, then tiled with a single 1D scf.for loop.
 // CHECK: aie.device
-// CHECK:         %[[tile_2_3:.*]] = aie.tile(2, 3)
-// CHECK:         %[[tile_2_4:.*]] = aie.tile(2, 4)
-// CHECK:         %[[tile_2_5:.*]] = aie.tile(2, 5)
-// CHECK:         %[[tile_2_6:.*]] = aie.tile(2, 6)
+// CHECK-DAG:         %[[tile_2_3:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[tile_2_4:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[tile_2_5:.*]] = aie.tile(2, 5)
+// CHECK-DAG:         %[[tile_2_6:.*]] = aie.tile(2, 6)
 // CHECK:         aie.core(%[[tile_2_6]])
 // CHECK:           %[[CST:.*]] = arith.constant 0 : i32
 // CHECK:           linalg.add
 
@@ -9,15 +9,15 @@
 
 // one dma channel, multiple dma memcpy ops over time
 // CHECK: aie.device
-// CHECK:         %[[VAL_0:.*]] = aie.tile(2, 1)
-// CHECK:         %[[VAL_1:.*]] = aie.tile(2, 3)
-// CHECK:         %[[VAL_2:.*]] = aie.lock(%[[VAL_0]], 1) {init = 1 : i32}
-// CHECK:         %[[VAL_3:.*]] = aie.lock(%[[VAL_0]], 0) {init = 0 : i32}
-// CHECK:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 1) {init = 2 : i32}
-// CHECK:         %[[VAL_5:.*]] = aie.lock(%[[VAL_1]], 0) {init = 0 : i32}
-// CHECK:         %[[VAL_8:.*]] = aie.buffer(%[[VAL_0]]) {{{.*}}} : memref<32x32xbf16, 1>
-// CHECK:         %[[VAL_9:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_10:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_0:.*]] = aie.tile(2, 1)
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[VAL_2:.*]] = aie.lock(%[[VAL_0]], 1) {init = 1 : i32}
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.lock(%[[VAL_0]], 0) {init = 0 : i32}
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 1) {init = 2 : i32}
+// CHECK-DAG:         %[[VAL_5:.*]] = aie.lock(%[[VAL_1]], 0) {init = 0 : i32}
+// CHECK-DAG:         %[[VAL_8:.*]] = aie.buffer(%[[VAL_0]]) {{{.*}}} : memref<32x32xbf16, 1>
+// CHECK-DAG:         %[[VAL_9:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_10:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // CHECK:    aie.mem(%[[VAL_1]])  {
 // CHECK:           aie.dma_start(S2MM, 0, ^bb1, ^bb3)
@@ -97,16 +97,16 @@ func.func @multi_memcpys_over_time() {
 
 // core-to-core ping pong
 // CHECK: aie.device
-// CHECK:         %[[VAL_1:.*]] = aie.tile(2, 3)
-// CHECK:         %[[VAL_2:.*]] = aie.tile(2, 4)
-// CHECK:         %[[VAL_3:.*]] = aie.lock(%[[VAL_1]], 1) {init = 2 : i32}
-// CHECK:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 0) {init = 0 : i32}
-// CHECK:         %[[VAL_7:.*]] = aie.lock(%[[VAL_2]], 1) {init = 2 : i32}
-// CHECK:         %[[VAL_8:.*]] = aie.lock(%[[VAL_2]], 0) {init = 0 : i32}
-// CHECK:         %[[VAL_11:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_12:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[VAL_2:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.lock(%[[VAL_1]], 1) {init = 2 : i32}
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 0) {init = 0 : i32}
+// CHECK-DAG:         %[[VAL_7:.*]] = aie.lock(%[[VAL_2]], 1) {init = 2 : i32}
+// CHECK-DAG:         %[[VAL_8:.*]] = aie.lock(%[[VAL_2]], 0) {init = 0 : i32}
+// CHECK-DAG:         %[[VAL_11:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_12:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // CHECK:    aie.mem(%[[VAL_2]])  {
 // CHECK:           aie.dma_start(S2MM, 0, ^bb1, ^bb3)
@@ -201,16 +201,16 @@ func.func @core_to_core_ping_pong() {
 
 // core-to-core ping pong, with multi-token scf.for loop
 // CHECK: aie.device
-// CHECK:         %[[VAL_1:.*]] = aie.tile(2, 3)
-// CHECK:         %[[VAL_2:.*]] = aie.tile(2, 4)
-// CHECK:         %[[VAL_3:.*]] = aie.lock(%[[VAL_1]], 1) {init = 2 : i32}
-// CHECK:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 0) {init = 0 : i32}
-// CHECK:         %[[VAL_7:.*]] = aie.lock(%[[VAL_2]], 1) {init = 2 : i32}
-// CHECK:         %[[VAL_8:.*]] = aie.lock(%[[VAL_2]], 0) {init = 0 : i32}
-// CHECK:         %[[VAL_11:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_12:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[VAL_2:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.lock(%[[VAL_1]], 1) {init = 2 : i32}
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 0) {init = 0 : i32}
+// CHECK-DAG:         %[[VAL_7:.*]] = aie.lock(%[[VAL_2]], 1) {init = 2 : i32}
+// CHECK-DAG:         %[[VAL_8:.*]] = aie.lock(%[[VAL_2]], 0) {init = 0 : i32}
+// CHECK-DAG:         %[[VAL_11:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_12:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // CHECK:    aie.mem(%[[VAL_2]])  {
 // CHECK:           aie.dma_start(S2MM, 0, ^bb1, ^bb3)
@@ -319,14 +319,14 @@ func.func @core_to_core_ping_pong() {
 
 // ping-pong is not possible with multiple channel accesses to the same buffer, due to dependence arising from the prod. and cons. of data in the buffer.
 // CHECK: aie.device
-// CHECK:         %[[VAL_0:.*]] = aie.tile(2, 1)
-// CHECK:         %[[VAL_1:.*]] = aie.tile(0, 3)
-// CHECK:         %[[VAL_3:.*]] = aie.lock(%[[VAL_0]], 1) {init = 1 : i32}
-// CHECK:         %[[VAL_4:.*]] = aie.lock(%[[VAL_0]], 0) {init = 0 : i32}
-// CHECK:         %[[VAL_7:.*]] = aie.lock(%[[VAL_1]], 1) {init = 1 : i32}
-// CHECK:         %[[VAL_8:.*]] = aie.lock(%[[VAL_1]], 0) {init = 0 : i32}
-// CHECK:         %[[VAL_11:.*]] = aie.buffer(%[[VAL_0]]) {{{.*}}} : memref<1x1x64x32xi32, 1 : i32>
-// CHECK:         %[[VAL_12:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<1x1x4x8x4x8xi32, 2 : i32>
+// CHECK-DAG:         %[[VAL_0:.*]] = aie.tile(2, 1)
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(0, 3)
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.lock(%[[VAL_0]], 1) {init = 1 : i32}
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.lock(%[[VAL_0]], 0) {init = 0 : i32}
+// CHECK-DAG:         %[[VAL_7:.*]] = aie.lock(%[[VAL_1]], 1) {init = 1 : i32}
+// CHECK-DAG:         %[[VAL_8:.*]] = aie.lock(%[[VAL_1]], 0) {init = 0 : i32}
+// CHECK-DAG:         %[[VAL_11:.*]] = aie.buffer(%[[VAL_0]]) {{{.*}}} : memref<1x1x64x32xi32, 1 : i32>
+// CHECK-DAG:         %[[VAL_12:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<1x1x4x8x4x8xi32, 2 : i32>
 
 // CHECK:    aie.mem(%[[VAL_1]])  {
 // CHECK:           aie.dma_start(S2MM, 0, ^bb1, ^bb2)
 
@@ -9,14 +9,14 @@
 
 // one-to-one communication using scf.if with arith.cmpi
 // CHECK: aie.device
-// CHECK:         %[[VAL_1:.*]] = aie.tile(2, 3)
-// CHECK:         %[[VAL_2:.*]] = aie.tile(2, 4)
-// CHECK:         %[[VAL_3:.*]] = aie.lock(%[[VAL_1]], 1)
-// CHECK:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 0)
-// CHECK:         %[[VAL_5:.*]] = aie.lock(%[[VAL_2]], 1)
-// CHECK:         %[[VAL_6:.*]] = aie.lock(%[[VAL_2]], 0)
-// CHECK:         %[[VAL_7:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_8:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[VAL_2:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.lock(%[[VAL_1]], 1)
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.lock(%[[VAL_1]], 0)
+// CHECK-DAG:         %[[VAL_5:.*]] = aie.lock(%[[VAL_2]], 1)
+// CHECK-DAG:         %[[VAL_6:.*]] = aie.lock(%[[VAL_2]], 0)
+// CHECK-DAG:         %[[VAL_7:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_8:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // CHECK:    aie.mem(%[[VAL_2]])  {
 // CHECK:           aie.dma_start(S2MM, 0, ^bb1, ^bb2)
@@ -90,14 +90,14 @@ func.func @one_to_one() {
 
 // two-to-two parallel dataflow using scf.if with arith.cmpi
 // CHECK: aie.device
-// CHECK:         %[[VAL_1:.*]] = aie.tile(2, 3)
-// CHECK:         %[[VAL_2:.*]] = aie.tile(3, 3)
-// CHECK:         %[[VAL_3:.*]] = aie.tile(2, 4)
-// CHECK:         %[[VAL_4:.*]] = aie.tile(3, 4)
-// CHECK:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_4]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_3]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_15:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
-// CHECK:         %[[VAL_16:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_1:.*]] = aie.tile(2, 3)
+// CHECK-DAG:         %[[VAL_2:.*]] = aie.tile(3, 3)
+// CHECK-DAG:         %[[VAL_3:.*]] = aie.tile(2, 4)
+// CHECK-DAG:         %[[VAL_4:.*]] = aie.tile(3, 4)
+// CHECK-DAG:         %[[VAL_13:.*]] = aie.buffer(%[[VAL_4]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_14:.*]] = aie.buffer(%[[VAL_3]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_15:.*]] = aie.buffer(%[[VAL_2]]) {{{.*}}} : memref<32x32xbf16, 2>
+// CHECK-DAG:         %[[VAL_16:.*]] = aie.buffer(%[[VAL_1]]) {{{.*}}} : memref<32x32xbf16, 2>
 
 // CHECK:         aie.flow(%[[VAL_3]], DMA : 0, %[[VAL_4]], DMA : 0)
 // CHECK:         aie.flow(%[[VAL_1]], DMA : 0, %[[VAL_2]], DMA : 0)