Merge branch 'main' into update-llvm-version

hunhoffe · web-flow · commit 603e81d9f14d · 2026-04-06T11:46:15.000-06:00
diff --git a/docs/Presentations.md b/docs/Presentations.md
@@ -8,6 +8,10 @@
     </tr>
   </thead>
   <tbody>
+    <tr>
+      <td style="vertical-align: middle;">ASPLOS 2026 Workshop - IRON AI Engine API for Ryzen AI NPU</td>
+      <td style="vertical-align: middle;"><a href="https://www.amd.com/content/dam/amd/en/documents/solutions/ai/iron-aie-api-for-ryzen-ai-npu-tutorial-asplos-2026.pdf"><img src="https://xilinx.github.io/xup_aie_training/images/pdf.png" alt="alt text" /></a></td>
+    </tr>
     <tr>
       <td style="vertical-align: middle;">ISCA 2025 Workshop - Leveraging the IRON AI Engine API to Program the Ryzen AI NPU</td>
       <td style="vertical-align: middle;"><a href="https://www.amd.com/content/dam/amd/en/documents/products/processors/ryzen/ai/iron-for-ryzen-ai-tutorial-isca-2025.pdf"><img src="https://xilinx.github.io/xup_aie_training/images/pdf.png" alt="alt text" /></a></td>
diff --git a/programming_examples/ml/resnet/layers_conv2_x/resnet.py b/programming_examples/ml/resnet/layers_conv2_x/resnet.py
@@ -204,19 +204,6 @@
     conv2dk1_skip_ui8,
 ]
 
-# runtime parameters
-rtp = []
-for i in range(3):
-    rtp.append([])
-    for j in range(2, 6):
-        rtp[i].append(
-            Buffer(
-                np.ndarray[(16,), np.dtype[np.int32]],
-                name=f"rtpComputeTile{i}{j}",
-                use_write_rtp=True,
-            )
-        )
-
 # Cores - we move in a snake-like pattern, that depends on
 # shared memory between neighbors, so we'll explicitly place all cores
 cores = [
@@ -225,6 +212,23 @@
     [Tile(2, 2), Tile(2, 3), Tile(2, 4), Tile(2, 5)],
 ]
 
+
+# Runtime parameters: one RTP buffer per worker that reads RTPs.
+# Only conv1_fn (cores[i][0]) and conv1_skip_fn (cores[i][2]) use RTPs;
+# conv2_fn workers hard-code scale=1 and need no buffer.
+def make_rtp(col, row):
+    return Buffer(
+        np.ndarray[(16,), np.dtype[np.int32]],
+        name=f"rtpComputeTile{col}{row}",
+        use_write_rtp=True,
+    )
+
+
+# rtp_conv1[i]      -> buffer for conv1_fn worker in column i
+# rtp_conv1_skip[i] -> buffer for conv1_skip_fn worker in column i
+rtp_conv1 = [make_rtp(cores[i][0].col, cores[i][0].row) for i in range(n_cols)]
+rtp_conv1_skip = [make_rtp(cores[i][2].col, cores[i][2].row) for i in range(n_cols)]
+
 # input tensor (with broadcast for skip connection)
 act1_fifo_names = ["act1_00_02_01", "act1_04_15_11", "act1_13_22_21"]
 act1_fifos = []
@@ -467,18 +471,17 @@ def conv1_skip_fn(
 # Create workers and place each one on a particular compute core
 workers = []
 for i in range(n_cols):
-    placement = cores[i][0]
     w = Worker(
         conv1_fn,
         [
             wts_sub_fifos[i][0].cons(),
             act1_fifos[i].cons(),
             act2_fifos[i].prod(),
             conv1_kernels_call[i],
-            rtp[placement.col][placement.row - 2],
+            rtp_conv1[i],
             i,
         ],
-        placement=placement,
+        placement=cores[i][0],
     )
     workers.append(w)
     w = Worker(
@@ -493,11 +496,6 @@ def conv1_skip_fn(
         placement=cores[i][1],
     )
     workers.append(w)
-    placement = cores[i][2]
-    if i == 0:
-        skip_rtp = rtp[0][3]
-    else:
-        skip_rtp = rtp[placement.col][placement.row - 2]
     w = Worker(
         conv1_skip_fn,
         [
@@ -507,10 +505,10 @@ def conv1_skip_fn(
             conv3_out_fifos[i].prod(),
             skip_fifos[i].cons(),
             conv3_kernels_call[i],
-            skip_rtp,
+            rtp_conv1_skip[i],
             i,
         ],
-        placement=placement,
+        placement=cores[i][2],
         stack_size=0xA00,
     )
     workers.append(w)
@@ -535,29 +533,22 @@ def conv1_skip_fn(
     outputToL3,
 ):
 
-    # Set runtime parameters
-    def set_rtps(rtp):
-        # Only set RTPs for tiles that actually read them (conv1_fn and conv1_skip_fn
-        # workers). conv2_fn workers use a hardcoded scale=1 and have no RTP arg,
-        # so their corresponding buffers are never placed/resolved.
-
-        # col 0: conv1_fn at Tile(0,2) → rtp[0][0]; conv1_skip_fn at Tile(0,4) → rtp[0][3]
-        rtp[0][0][0] = 1
-        rtp[0][3][0] = 1
-        rtp[0][3][1] = 0
-        rtp[0][3][2] = 1
-
-        # col 1: conv1_fn at Tile(1,5) → rtp[1][3]; conv1_skip_fn at Tile(1,3) → rtp[1][1]
-        rtp[1][3][0] = 1
-        rtp[1][1][0] = 1
-        rtp[1][1][1] = 0
-
-        # col 2: conv1_fn at Tile(2,2) → rtp[2][0]; conv1_skip_fn at Tile(2,4) → rtp[2][2]
-        rtp[2][0][0] = 1
-        rtp[2][2][0] = 1
-        rtp[2][2][1] = 0
-
-    rt.inline_ops(set_rtps, [rtp])
+    # Set runtime parameters for conv1_fn workers (scale)
+    # and conv1_skip_fn workers (scale, skipScale, [skipConvScale for col 0])
+    def set_rtps(rtp_conv1, rtp_conv1_skip):
+        rtp_conv1[0][0] = 1  # col 0 conv1 scale
+        rtp_conv1[1][0] = 1  # col 1 conv1 scale
+        rtp_conv1[2][0] = 1  # col 2 conv1 scale
+
+        rtp_conv1_skip[0][0] = 1  # col 0 skip scale
+        rtp_conv1_skip[0][1] = 0  # col 0 skipScale
+        rtp_conv1_skip[0][2] = 1  # col 0 skipConvScale (init only)
+        rtp_conv1_skip[1][0] = 1  # col 1 skip scale
+        rtp_conv1_skip[1][1] = 0  # col 1 skipScale
+        rtp_conv1_skip[2][0] = 1  # col 2 skip scale
+        rtp_conv1_skip[2][1] = 0  # col 2 skipScale
+
+    rt.inline_ops(set_rtps, [rtp_conv1, rtp_conv1_skip])
 
     # Start workers
     rt.start(*workers)
diff --git a/python/iron/runtime/task.py b/python/iron/runtime/task.py
@@ -9,6 +9,7 @@
 
 from ... import ir  # type: ignore
 
+from ..buffer import Buffer
 from ..resolvable import Resolvable
 from ..worker import Worker
 from .taskgroup import RuntimeTaskGroup
@@ -77,9 +78,20 @@ def __init__(
         self._args = args
         RuntimeTask.__init__(self, task_group)
 
+    @staticmethod
+    def _resolve_buffers(obj, loc, ip):
+        """Recursively resolve any Buffer instances found in obj (handles nested lists/tuples)."""
+        if isinstance(obj, Buffer):
+            obj.resolve(loc=loc, ip=ip)
+        elif isinstance(obj, (list, tuple)):
+            for item in obj:
+                InlineOpRuntimeTask._resolve_buffers(item, loc, ip)
+
     def resolve(
         self,
         loc: ir.Location | None = None,
         ip: ir.InsertionPoint | None = None,
     ) -> None:
+        for arg in self._args:
+            InlineOpRuntimeTask._resolve_buffers(arg, loc, ip)
         self._fn(*self._args)
diff --git a/test/python/buffer.py b/test/python/buffer.py
diff --git a/test/python/buffer_resolution.py b/test/python/buffer_resolution.py
@@ -0,0 +1,173 @@
+# Copyright (C) 2025, Advanced Micro Devices, Inc.
+# SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+
+# RUN: %python %s | FileCheck %s
+
+"""Regression tests for Buffer placement and resolution behaviour.
+
+Covers the bug reported in https://github.com/Xilinx/mlir-aie/issues/3011:
+  - A Buffer passed to a Worker is placed automatically by the placer and
+    resolved before inline_ops callbacks fire, so indexing inside the callback
+    works correctly.
+  - A Buffer that is created but never given to any Worker has no tile and
+    therefore cannot be resolved; InlineOpRuntimeTask must raise a clear
+    ValueError rather than a confusing AttributeError from __setitem__.
+  - Multiple RTP buffers (one per worker) in a list can all be written inside a
+    single inline_ops callback, reflecting the common RTP-initialisation pattern
+    seen in ML examples such as resnet layers_conv2_x.
+"""
+
+import numpy as np
+
+from aie.iron import Buffer, ObjectFifo, Program, Runtime, Worker
+from aie.iron.placers import SequentialPlacer
+from aie.iron.device import NPU1Col1, NPU2
+
+rtp_ty = np.ndarray[(16,), np.dtype[np.int32]]
+data_ty = np.ndarray[(64,), np.dtype[np.int32]]
+
+
+# ---------------------------------------------------------------------------
+# Test 1: Buffer given to a Worker is resolved before inline_ops fires,
+#         so element writes inside the callback produce correct rtp_write ops.
+# CHECK-LABEL: TEST: rtp_buffer_written_in_inline_ops
+# CHECK: aiex.npu.rtp_write(@my_rtp, 0, 7)
+# CHECK: aiex.npu.rtp_write(@my_rtp, 1, 3)
+# ---------------------------------------------------------------------------
+print("\nTEST: rtp_buffer_written_in_inline_ops")
+
+of_in = ObjectFifo(data_ty, name="in")
+of_out = ObjectFifo(data_ty, name="out")
+rtp_buf = Buffer(rtp_ty, name="my_rtp", use_write_rtp=True)
+
+
+def core_fn(of_in, of_out, rtp):
+    scale = rtp[0]
+    elem_in = of_in.acquire(1)
+    elem_out = of_out.acquire(1)
+    of_in.release(1)
+    of_out.release(1)
+
+
+worker = Worker(core_fn, [of_in.cons(), of_out.prod(), rtp_buf])
+
+rt = Runtime()
+with rt.sequence(data_ty, data_ty) as (inp, out):
+
+    def set_rtp(buf):
+        buf[0] = 7
+        buf[1] = 3
+
+    rt.inline_ops(set_rtp, [rtp_buf])
+    rt.start(worker)
+    rt.fill(of_in.prod(), inp)
+    rt.drain(of_out.cons(), out, wait=True)
+
+module = Program(NPU1Col1(), rt).resolve_program(SequentialPlacer())
+print(module)
+
+
+# ---------------------------------------------------------------------------
+# Test 2: Multiple RTP buffers (one per worker) in a list, all written in one
+#         inline_ops callback — mirrors the resnet layers_conv2_x pattern.
+# CHECK-LABEL: TEST: multiple_rtp_buffers_in_inline_ops
+# CHECK: aiex.npu.rtp_write(@rtp_w0, 0, 1)
+# CHECK: aiex.npu.rtp_write(@rtp_w1, 0, 2)
+# CHECK: aiex.npu.rtp_write(@rtp_w2, 0, 3)
+# ---------------------------------------------------------------------------
+print("\nTEST: multiple_rtp_buffers_in_inline_ops")
+
+n_workers = 3
+of_ins = [ObjectFifo(data_ty, name=f"in{i}") for i in range(n_workers)]
+of_outs = [ObjectFifo(data_ty, name=f"out{i}") for i in range(n_workers)]
+rtps = [Buffer(rtp_ty, name=f"rtp_w{i}", use_write_rtp=True) for i in range(n_workers)]
+
+
+def core_fn_rtp(of_in, of_out, rtp):
+    scale = rtp[0]
+    elem_in = of_in.acquire(1)
+    elem_out = of_out.acquire(1)
+    of_in.release(1)
+    of_out.release(1)
+
+
+workers = [
+    Worker(core_fn_rtp, [of_ins[i].cons(), of_outs[i].prod(), rtps[i]])
+    for i in range(n_workers)
+]
+
+rt2 = Runtime()
+with rt2.sequence(data_ty, data_ty, data_ty, data_ty, data_ty, data_ty) as (
+    i0,
+    i1,
+    i2,
+    o0,
+    o1,
+    o2,
+):
+
+    def set_rtps(rtps):
+        rtps[0][0] = 1
+        rtps[1][0] = 2
+        rtps[2][0] = 3
+
+    rt2.inline_ops(set_rtps, [rtps])
+    rt2.start(*workers)
+    rt2.fill(of_ins[0].prod(), i0)
+    rt2.fill(of_ins[1].prod(), i1)
+    rt2.fill(of_ins[2].prod(), i2)
+    rt2.drain(of_outs[0].cons(), o0, wait=True)
+    rt2.drain(of_outs[1].cons(), o1, wait=True)
+    rt2.drain(of_outs[2].cons(), o2, wait=True)
+
+module2 = Program(NPU2(), rt2).resolve_program(SequentialPlacer())
+print(module2)
+
+
+# ---------------------------------------------------------------------------
+# Test 3: A Buffer never given to any Worker raises ValueError (not the
+#         confusing AttributeError from __setitem__) when inline_ops fires.
+#         This is the exact failure mode of GitHub issue #3011.
+# CHECK-LABEL: TEST: unplaced_buffer_in_inline_ops_raises
+# CHECK: PASSED
+# ---------------------------------------------------------------------------
+print("\nTEST: unplaced_buffer_in_inline_ops_raises")
+
+of_in3 = ObjectFifo(data_ty, name="in3")
+of_out3 = ObjectFifo(data_ty, name="out3")
+placed_rtp = Buffer(rtp_ty, name="placed_rtp", use_write_rtp=True)
+orphan_rtp = Buffer(
+    rtp_ty, name="orphan_rtp", use_write_rtp=True
+)  # never given to a Worker
+
+
+def core_fn3(of_in, of_out, rtp):
+    scale = rtp[0]
+    elem_in = of_in.acquire(1)
+    elem_out = of_out.acquire(1)
+    of_in.release(1)
+    of_out.release(1)
+
+
+worker3 = Worker(core_fn3, [of_in3.cons(), of_out3.prod(), placed_rtp])
+
+rt3 = Runtime()
+with rt3.sequence(data_ty, data_ty) as (inp3, out3):
+
+    def write_both(placed, orphan):
+        placed[0] = 1
+        orphan[0] = 1  # orphan has no tile → should raise ValueError
+
+    rt3.inline_ops(write_both, [placed_rtp, orphan_rtp])
+    rt3.start(worker3)
+    rt3.fill(of_in3.prod(), inp3)
+    rt3.drain(of_out3.cons(), out3, wait=True)
+
+try:
+    Program(NPU1Col1(), rt3).resolve_program(SequentialPlacer())
+    print("FAILED: expected ValueError but no exception was raised")
+except ValueError as e:
+    assert "placed" in str(e).lower(), f"unexpected message: {e}"
+    print("PASSED")
+except Exception as e:
+    print(f"FAILED: expected ValueError, got {type(e).__name__}: {e}")