feat(convolution - ops): add backpropagation for col2img, computational graph nodes, and related test cases

Mgepahmge · Mgepahmge · commit 54ef859139f6 · 2025-05-11T17:42:53.000+08:00
- Added backpropagation functionality for the col2img operation to enable gradient flow.
- Integrated computational graph nodes for col2img backpropagation to support automatic differentiation.
- Developed a suite of test cases to validate the correctness of the backpropagation and graph nodes.
- The test cases cover various input sizes and configurations to ensure the robustness of the implementation.
diff --git a/include/NeuZephyr/Nodes.cuh b/include/NeuZephyr/Nodes.cuh
@@ -3316,6 +3316,19 @@ namespace nz::nodes {
 
             void backward() override;
         };
+
+        class DL_API Col2ImgNode : public Node {
+        public:
+            Tensor::size_type outputHeight;
+            Tensor::size_type outputWidth;
+            Tensor::size_type outputChannels;
+
+            Col2ImgNode(Node* input, Tensor::size_type outputHeight, Tensor::size_type outputWidth);
+
+            void forward() override;
+
+            void backward() override;
+        };
     }
 
     /**
diff --git a/include/NeuZephyr/OperationKernels.cuh b/include/NeuZephyr/OperationKernels.cuh
@@ -1016,6 +1016,9 @@ namespace nz::krnl {
 
     void col2img(const dim3 gridDim, const dim3 blockDim, float* out, float* in, const size_t H_out,
                  const size_t W_out, const size_t C_out, const size_t batches);
+
+    void col2imgBackward(const dim3 gridDim, const dim3 blockDim, float* out, float* in, const size_t H_out,
+                         const size_t W_out, const size_t C_out, const size_t batches);
 #endif
 }
 
diff --git a/include/NeuZephyr/TensorOperations.cuh b/include/NeuZephyr/TensorOperations.cuh
@@ -1142,5 +1142,7 @@ namespace nz::data {
         }
         return result;
     }
+
+    DL_API void iCol2imgBackward(float* out, float* in, size_t H_out, size_t W_out, size_t C_out, size_t batches);
 }
 #endif //TENSOROPERATIONS_CUH
diff --git a/src/Nodes.cu b/src/Nodes.cu
@@ -622,18 +622,45 @@ namespace nz::nodes {
         }
 
         void Img2ColNode::forward() {
-            iImg2col(output->data(), inputs[0]->output->data(), outputHeight, outputWidth, inputs[0]->output->shape()[1],
-                kernelHeight, kernelWidth, stride, padding, inputs[0]->output->shape()[2], inputs[0]->output->shape()[3],
-                inputs[0]->output->shape()[0]);
+            iImg2col(output->data(), inputs[0]->output->data(), outputHeight, outputWidth,
+                     inputs[0]->output->shape()[1],
+                     kernelHeight, kernelWidth, stride, padding, inputs[0]->output->shape()[2],
+                     inputs[0]->output->shape()[3],
+                     inputs[0]->output->shape()[0]);
         }
 
         void Img2ColNode::backward() {
             if (inputs[0]->output->requiresGrad()) {
-                iImg2colBackward(inputs[0]->output->grad(), output->grad(), outputHeight, outputWidth, inputs[0]->output->shape()[1],
-                kernelHeight, kernelWidth, stride, padding, inputs[0]->output->shape()[2], inputs[0]->output->shape()[3],
-                inputs[0]->output->shape()[0]);
+                iImg2colBackward(inputs[0]->output->grad(), output->grad(), outputHeight, outputWidth,
+                                 inputs[0]->output->shape()[1],
+                                 kernelHeight, kernelWidth, stride, padding, inputs[0]->output->shape()[2],
+                                 inputs[0]->output->shape()[3],
+                                 inputs[0]->output->shape()[0]);
             }
         }
+
+        Col2ImgNode::Col2ImgNode(Node* input, const Tensor::size_type outputHeight,
+                                 const Tensor::size_type outputWidth) : outputHeight(outputHeight),
+                                                                        outputWidth(outputWidth),
+                                                                        outputChannels(input->output->shape()[3]) {
+            inputs.push_back(input);
+            output = std::make_shared<Tensor>(Tensor::shape_type(
+                input->output->shape()[0],
+                outputChannels,
+                outputHeight,
+                outputWidth), input->output->requiresGrad());
+            type = "Col2Img";
+        }
+
+        void Col2ImgNode::forward() {
+            iCol2img(output->data(), inputs[0]->output->data(), outputHeight, outputWidth, outputChannels,
+                inputs[0]->output->shape()[0]);
+        }
+
+        void Col2ImgNode::backward() {
+            iCol2imgBackward(inputs[0]->output->grad(), output->grad(), outputHeight, outputWidth, outputChannels,
+                inputs[0]->output->shape()[0]);
+        }
     }
 
     namespace loss {
diff --git a/src/OperationKernels.cu b/src/OperationKernels.cu
@@ -570,8 +570,10 @@ namespace nz::krnl {
     }
 
     void SoftmaxJacobian(const dim3 gridDim, const dim3 blockDim, float* out, float* in,
-                         const unsigned long long n, const std::vector<size_t>& offset_o, const std::vector<size_t>& offset_i) {
-        StreamManager<float>::Instance().submitParallel(SoftmaxJacobianKernel, gridDim, blockDim, 0, out, in, offset_o, offset_i, n);
+                         const unsigned long long n, const std::vector<size_t>& offset_o,
+                         const std::vector<size_t>& offset_i) {
+        StreamManager<float>::Instance().submitParallel(SoftmaxJacobianKernel, gridDim, blockDim, 0, out, in, offset_o,
+                                                        offset_i, n);
     }
 
     __global__ void MeanSquaredErrorKernel(float* out, const float* predict, const float* real,
@@ -1286,7 +1288,7 @@ namespace nz::krnl {
     }
 
     void Expand(const dim3 gridDim, const dim3 blockDim, float* out, float* in, const size_t n,
-                 const size_t total) {
+                const size_t total) {
         StreamManager<float>::Instance().submit(ExpandKernel, gridDim, blockDim, 0, out, in, n, total);
     }
 
@@ -1304,7 +1306,8 @@ namespace nz::krnl {
     }
 
     __global__ void img2colKernel(float* out, const float* in, const size_t H_out, const size_t W_out, const size_t C,
-        const size_t K_h, const size_t K_w, const size_t stride, const size_t pad, const size_t H_in, const size_t W_in, const size_t batch) {
+                                  const size_t K_h, const size_t K_w, const size_t stride, const size_t pad,
+                                  const size_t H_in, const size_t W_in, const size_t batch) {
         const size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
         if (idx >= H_out * W_out * C * K_h * K_w * batch) {
             return;
@@ -1325,14 +1328,16 @@ namespace nz::krnl {
     }
 
     void img2col(const dim3 gridDim, const dim3 blockDim, float* out, float* in, const size_t H_out,
-              const size_t W_out, const size_t C, const size_t K_h, const size_t K_w, const size_t stride,
-              const size_t pad, const size_t H_in, const size_t W_in, const size_t batch) {
+                 const size_t W_out, const size_t C, const size_t K_h, const size_t K_w, const size_t stride,
+                 const size_t pad, const size_t H_in, const size_t W_in, const size_t batch) {
         StreamManager<float>::Instance().submit(img2colKernel, gridDim, blockDim, 0, out, in, H_out, W_out, C,
                                                 K_h, K_w, stride, pad, H_in, W_in, batch);
     }
 
-    __global__ void img2colBackwardKernel(float* out, const float* in, const size_t H_out, const size_t W_out, const size_t C,
-    const size_t K_h, const size_t K_w, const size_t stride, const size_t pad, const size_t H_in, const size_t W_in, const size_t batch) {
+    __global__ void img2colBackwardKernel(float* out, const float* in, const size_t H_out, const size_t W_out,
+                                          const size_t C,
+                                          const size_t K_h, const size_t K_w, const size_t stride, const size_t pad,
+                                          const size_t H_in, const size_t W_in, const size_t batch) {
         const size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
         if (idx >= H_out * W_out * C * K_h * K_w * batch) {
             return;
@@ -1350,13 +1355,14 @@ namespace nz::krnl {
     }
 
     void img2colBackward(const dim3 gridDim, const dim3 blockDim, float* out, float* in, const size_t H_out,
-              const size_t W_out, const size_t C, const size_t K_h, const size_t K_w, const size_t stride,
-              const size_t pad, const size_t H_in, const size_t W_in, const size_t batch) {
+                         const size_t W_out, const size_t C, const size_t K_h, const size_t K_w, const size_t stride,
+                         const size_t pad, const size_t H_in, const size_t W_in, const size_t batch) {
         StreamManager<float>::Instance().submit(img2colBackwardKernel, gridDim, blockDim, 0, out, in, H_out,
                                                 W_out, C, K_h, K_w, stride, pad, H_in, W_in, batch);
     }
 
-    __global__ void col2imgKernel(float* out, const float* in, const size_t H_out, const size_t W_out, const size_t C_out, const size_t batches) {
+    __global__ void col2imgKernel(float* out, const float* in, const size_t H_out, const size_t W_out,
+                                  const size_t C_out, const size_t batches) {
         const size_t idx = blockDim.x * blockIdx.x + threadIdx.x;
         if (idx >= H_out * W_out * C_out * batches) {
             return;
@@ -1374,4 +1380,24 @@ namespace nz::krnl {
         StreamManager<float>::Instance().submit(col2imgKernel, gridDim, blockDim, 0, out, in, H_out, W_out, C_out,
                                                 batches);
     }
+
+    __global__ void col2imgBackwardKernel(float* out, const float* in, const size_t H_out, const size_t W_out,
+                                          const size_t C_out, const size_t batches) {
+        const size_t idx = blockDim.x * blockIdx.x + threadIdx.x;
+        if (idx >= H_out * W_out * C_out * batches) {
+            return;
+        }
+        const size_t batch = idx / (C_out * H_out * W_out);
+        const size_t fixedIdx = idx % (C_out * H_out * W_out);
+        const size_t c = fixedIdx / (H_out * W_out);
+        const size_t h = (fixedIdx % (H_out * W_out)) / W_out;
+        const size_t w = (fixedIdx % (H_out * W_out)) % W_out;
+        out[batch * (C_out * H_out * W_out) + (h * W_out + w) * C_out + c] = in[idx];
+    }
+
+    void col2imgBackward(const dim3 gridDim, const dim3 blockDim, float* out, float* in, const size_t H_out,
+                         const size_t W_out, const size_t C_out, const size_t batches) {
+        StreamManager<float>::Instance().submit(col2imgBackwardKernel, gridDim, blockDim, 0, out, in, H_out, W_out,
+                                                C_out, batches);
+    }
 }
diff --git a/src/TensorOperations.cu b/src/TensorOperations.cu
@@ -154,4 +154,10 @@ namespace nz::data {
         const dim3 grid((H_out * W_out * C_out * batches + BLOCKSIZE - 1) / BLOCKSIZE);
         krnl::col2img(grid, block, out, in, H_out, W_out, C_out, batches);
     }
+
+    void iCol2imgBackward(float* out, float* in, size_t H_out, size_t W_out, size_t C_out, size_t batches) {
+        const dim3 block(BLOCKSIZE);
+        const dim3 grid((H_out * W_out * C_out * batches + BLOCKSIZE - 1) / BLOCKSIZE);
+        krnl::col2imgBackward(grid, block, out, in, H_out, W_out, C_out, batches);
+    }
 }
diff --git a/test/Test.cpp b/test/Test.cpp
@@ -3105,4 +3105,74 @@ TEST(TenorBasic, col2imgTest) {
     Tensor expected({n, c, h, w});
     expected.dataInject(expectedData.begin(), expectedData.end());
     EXPECT_EQ(expected, result);
+}
+
+TEST(NodeBasic, col2imgForward) {
+    const size_t n = 2;
+    const size_t c = 3;
+    const size_t h = 4;
+    const size_t w = 5;
+
+    std::vector<float> inputData({n*c*h*w});
+    std::vector<float> expectedData({n*c*h*w});
+
+    std::random_device rd;
+    std::mt19937 gen(rd());
+    std::uniform_real_distribution<float> dist(0.1f, 0.9f);
+    for (auto& i : inputData) {
+        i = dist(gen);
+    }
+    for (auto i = 0; i < n; i++) {
+        for (auto j = 0; j < c; j++) {
+            for (auto k = 0; k < h; k++) {
+                for (auto l = 0; l < w; l++) {
+                    expectedData[i * (c*h*w) + j * (h*w) + k * w + l] =
+                        inputData[i * (c*h*w) + (k * w + l) * c + j];
+                }
+            }
+        }
+    }
+
+    InputNode input({n ,1, h*w, c});
+    input.dataInject(inputData.begin(), inputData.end());
+    Col2ImgNode result(&input, h, w);
+    result.forward();
+    Tensor expected({n, c, h, w});
+    expected.dataInject(expectedData.begin(), expectedData.end());
+    EXPECT_EQ(expected, *result.output);
+}
+
+TEST(NodeBasic, Col2imgBackward) {
+    const size_t n = 2;
+    const size_t c = 3;
+    const size_t h = 4;
+    const size_t w = 5;
+
+    std::vector<float> inputData({n*c*h*w});
+    std::vector<float> expectedData({n*c*h*w});
+
+    std::random_device rd;
+    std::mt19937 gen(rd());
+    std::uniform_real_distribution<float> dist(0.1f, 0.9f);
+    for (auto& i : inputData) {
+        i = dist(gen);
+    }
+    for (auto i = 0; i < n; i++) {
+        for (auto j = 0; j < c; j++) {
+            for (auto k = 0; k < h; k++) {
+                for (auto l = 0; l < w; l++) {
+                    expectedData[i * (c*h*w) + j * (h*w) + k * w + l] =
+                        inputData[i * (c*h*w) + (k * w + l) * c + j];
+                }
+            }
+        }
+    }
+
+    InputNode input({n, 1, h*w, c}, true);
+    Col2ImgNode result(&input, h, w);
+    result.dataInject(expectedData.begin(), expectedData.end(), true);
+    result.backward();
+    Tensor expected({n, 1, h*w, c}, true);
+    expected.dataInject(inputData.begin(), inputData.end(), true);
+    EXPECT_EQ(expected, *input.output);
 }

Original file line number	Diff line number	Diff line change
`@@ -1016,6 +1016,9 @@ namespace nz::krnl {`
`1016`	`1016`
`1017`	`1017`	`void col2img(const dim3 gridDim, const dim3 blockDim, float* out, float* in, const size_t H_out,`
`1018`	`1018`	`const size_t W_out, const size_t C_out, const size_t batches);`
	`1019`	`+`
	`1020`	`+ void col2imgBackward(const dim3 gridDim, const dim3 blockDim, float* out, float* in, const size_t H_out,`
	`1021`	`+ const size_t W_out, const size_t C_out, const size_t batches);`
`1019`	`1022`	`#endif`
`1020`	`1023`	`}`
`1021`	`1024`
Original file line number	Diff line number	Diff line change
`@@ -1142,5 +1142,7 @@ namespace nz::data {`
`1142`	`1142`	`}`
`1143`	`1143`	`return result;`
`1144`	`1144`	`}`
	`1145`	`+`
	`1146`	`+ DL_API void iCol2imgBackward(float* out, float* in, size_t H_out, size_t W_out, size_t C_out, size_t batches);`
`1145`	`1147`	`}`
`1146`	`1148`	`#endif //TENSOROPERATIONS_CUH`
Original file line number	Diff line number	Diff line change
`@@ -154,4 +154,10 @@ namespace nz::data {`
`154`	`154`	`const dim3 grid((H_out * W_out * C_out * batches + BLOCKSIZE - 1) / BLOCKSIZE);`
`155`	`155`	`krnl::col2img(grid, block, out, in, H_out, W_out, C_out, batches);`
`156`	`156`	`}`
	`157`	`+`
	`158`	`+ void iCol2imgBackward(float* out, float* in, size_t H_out, size_t W_out, size_t C_out, size_t batches) {`
	`159`	`+ const dim3 block(BLOCKSIZE);`
	`160`	`+ const dim3 grid((H_out * W_out * C_out * batches + BLOCKSIZE - 1) / BLOCKSIZE);`
	`161`	`+ krnl::col2imgBackward(grid, block, out, in, H_out, W_out, C_out, batches);`
	`162`	`+ }`
`157`	`163`	`}`