Merge pull request #168 from pierotofy/linalg

pierotofy · web-flow · commit ff463b7c4d7c · 2025-03-09T20:28:29.000-04:00
Refactor linalg calls
diff --git a/.github/workflows/cuda/Linux-env.sh b/.github/workflows/cuda/Linux-env.sh
@@ -1,43 +1,12 @@
 #!/bin/bash
 
-# Took from https://github.com/pyg-team/pyg-lib/
+# $1 = cu124 --> 12.4
+VER="${1:2:2}.${1:4:1}"
 
-case ${1} in
-  cu121)
-    export CUDA_HOME=/usr/local/cuda-12.1
-    export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
-    export PATH=${CUDA_HOME}/bin:${PATH}
-    ;;
-  cu118)
-    export CUDA_HOME=/usr/local/cuda-11.8
-    export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
-    export PATH=${CUDA_HOME}/bin:${PATH}
-    ;;
-  cu117)
-    export CUDA_HOME=/usr/local/cuda-11.7
-    export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
-    export PATH=${CUDA_HOME}/bin:${PATH}
-    ;;
-  cu116)
-    export CUDA_HOME=/usr/local/cuda-11.6
-    export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
-    export PATH=${CUDA_HOME}/bin:${PATH}
-    ;;
-  cu115)
-    export CUDA_HOME=/usr/local/cuda-11.5
-    export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
-    export PATH=${CUDA_HOME}/bin:${PATH}
-    ;;
-  cu113)
-    export CUDA_HOME=/usr/local/cuda-11.3
-    export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
-    export PATH=${CUDA_HOME}/bin:${PATH}
-    ;;
-  cu102)
-    export CUDA_HOME=/usr/local/cuda-10.2
-    export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
-    export PATH=${CUDA_HOME}/bin:${PATH}
-    ;;
-  *)
-    ;;
-esac
+export CUDA_HOME=/usr/local/cuda-${VER}
+export LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
+export PATH=${CUDA_HOME}/bin:${PATH}
+
+echo "CUDA_HOME: ${CUDA_HOME}"
+echo "LD_LIBRARY_PATH: ${LD_LIBRARY_PATH}"
+echo "PATH: ${PATH}"
diff --git a/.github/workflows/cuda/Linux.sh b/.github/workflows/cuda/Linux.sh
@@ -12,6 +12,12 @@ CUDA_VER_ID="${CUDA_VER_ARR[0]}_${CUDA_VER_ARR[1]}"
 CUDA_VER_SHORT="cu${CUDA_VER_ARR[0]}${CUDA_VER_ARR[1]}"
 
 case ${CUDA_VER_SHORT} in
+  cu124)
+    CUDA=12.4
+    APT_KEY=${OS}-${CUDA/./-}-local
+    FILENAME=cuda-repo-${APT_KEY}_${CUDA}.1-550.54.15-1_amd64.deb
+    URL=https://developer.download.nvidia.com/compute/cuda/${CUDA}.1/local_installers
+    ;;
   cu121)
     CUDA=12.1
     APT_KEY=${OS}-${CUDA/./-}-local
@@ -65,7 +71,7 @@ sudo mv cuda-${OS}.pin /etc/apt/preferences.d/cuda-repository-pin-600
 wget -nv ${URL}/${FILENAME}
 sudo dpkg -i ${FILENAME}
 
-if [ "${CUDA_VER_SHORT}" = "cu117" ] || [ "${CUDA_VER_SHORT}" = "cu118" ] || [ "${CUDA_VER_SHORT}" = "cu121" ]; then
+if [ "${CUDA_VER_SHORT}" = "cu124" ] || [ "${CUDA_VER_SHORT}" = "cu117" ] || [ "${CUDA_VER_SHORT}" = "cu118" ] || [ "${CUDA_VER_SHORT}" = "cu121" ]; then
   sudo cp /var/cuda-repo-${APT_KEY}/cuda-*-keyring.gpg /usr/share/keyrings/
 else
   sudo apt-key add /var/cuda-repo-${APT_KEY}/7fa2af80.pub
diff --git a/.github/workflows/rocm6.yml b/.github/workflows/rocm6.yml
@@ -11,7 +11,7 @@ on:
 
 jobs:
   build:
-    name: ${{ matrix.os }}-cuda-${{ matrix.cuda-version }}-torch-${{ matrix.torch-version }}-${{ matrix.cmake-build-type }}
+    name: ${{ matrix.os }}-rocm-${{ matrix.rocm-version }}-torch-${{ matrix.torch-version }}-${{ matrix.cmake-build-type }}
     runs-on: ${{ matrix.os }}
     strategy:
       fail-fast: false
diff --git a/.github/workflows/ubuntu.yml b/.github/workflows/ubuntu.yml
@@ -19,8 +19,15 @@ jobs:
         os: [ubuntu-22.04, ubuntu-20.04] # [ubuntu-22.04, ubuntu-20.04, ubuntu-18.04]
         arch: [x64] # [x64, x86]
         torch-version: [2.6.0, 2.3.1, 2.2.1, 2.1.2] # [1.12.0, 1.13.0, 2.0.0, 2.1.0, 2.1.1, 2.1.2, 2.2.0, 2.2.1]
-        cuda-version: [11.8.0, 12.1.1] # [12.3.1, 12.1.1, 11.8.0, 11.7.1, 11.6.2, 11.5.2,11.4.4, 11.3.1, 11.2.2, 11.1.1, 11.0.3, cpu]
+        cuda-version: [11.8.0, 12.4.1] # [12.3.1, 12.1.1, 11.8.0, 11.7.1, 11.6.2, 11.5.2,11.4.4, 11.3.1, 11.2.2, 11.1.1, 11.0.3, cpu]
         cmake-build-type: [Release] # [Debug, ClangTidy]
+        exclude:
+          - cuda-version: 12.4.1
+            torch-version: 2.3.1
+          - cuda-version: 12.4.1
+            torch-version: 2.2.1
+          - cuda-version: 12.4.1
+            torch-version: 2.1.2
     env:
       CCACHE_DIR: ${{ github.workspace }}/ccache
       CCACHE_BASEDIR: ${{ github.workspace }}
diff --git a/.github/workflows/windows.yml b/.github/workflows/windows.yml
@@ -16,26 +16,15 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        os: [windows-2019, windows-2022] # [windows-2019, windows-2022]
+        os: [windows-2022] # [windows-2019, windows-2022]
         arch: [x64] # [x64, x86]
         torch-version: [2.6.0, 2.3.1, 2.2.1, 2.1.2] # [1.12.0, 1.13.0, 2.0.0, 2.1.0, 2.1.1, 2.1.2, 2.2.0, 2.2.1]
-        cuda-version: [12.4.0, 12.1.1] # [12.3.1, 12.1.1, 11.8.0, 11.7.1, 11.6.2, 11.5.2,11.4.4, 11.3.1, 11.2.2, 11.1.1, 11.0.3, cpu]
-        opencv-version: [4.10.0, 4.9.0] # [4.7.0, 4.8.1, 4.9.0]
+        cuda-version: [12.4.0] # [12.3.1, 12.1.1, 11.8.0, 11.7.1, 11.6.2, 11.5.2,11.4.4, 11.3.1, 11.2.2, 11.1.1, 11.0.3, cpu]
+        opencv-version: [4.10.0] # [4.7.0, 4.8.1, 4.9.0]
         cmake-build-type: [ Release ] # [Debug, ClangTidy]
         include:
-          - os: windows-2019
-            generator: 'Visual Studio 16 2019'
           - os: windows-2022
             generator: 'Visual Studio 17 2022'
-        exclude:
-          - os: windows-2019
-            cuda-version: 12.4.0
-          - os: windows-2022
-            cuda-version: 12.1.1
-          - os: windows-2019
-            opencv-version: 4.10.0
-          - os: windows-2022
-            opencv-version: 4.9.0
     env:
       CCACHE_DIR: ${{ github.workspace }}\ccache
       CCACHE_BASEDIR: ${{ github.workspace }}
diff --git a/VERSION b/VERSION
@@ -1 +1 @@
-1.1.4
+1.1.5
diff --git a/model.cpp b/model.cpp
@@ -310,18 +310,15 @@ void Model::afterTrain(int step){
     if (step < stopSplitAt){
         torch::Tensor visibleMask = (radii > 0).flatten();
         
-        torch::Tensor grads = xys.grad().detach();
-        torch::Tensor gradsNorm = torch::sqrt(torch::sum(grads.pow(2), -1, false)); // Calculate L2 norm manually
-
+        torch::Tensor grads = torch::linalg_vector_norm(xys.grad().detach(), 2, { -1 }, false, torch::kFloat32);
         if (!xysGradNorm.numel()){
-            xysGradNorm = gradsNorm;
+            xysGradNorm = grads;
             visCounts = torch::ones_like(xysGradNorm);
         }else{
             visCounts.index_put_({visibleMask}, visCounts.index({visibleMask}) + 1);
-            xysGradNorm.index_put_({visibleMask}, gradsNorm.index({visibleMask}) + xysGradNorm.index({visibleMask}));
+            xysGradNorm.index_put_({visibleMask}, grads.index({visibleMask}) + xysGradNorm.index({visibleMask}));
         }
 
-
         if (!max2DSize.numel()){
             max2DSize = torch::zeros_like(radii, torch::kFloat32);
         }
@@ -355,14 +352,11 @@ void Model::afterTrain(int step){
 
             torch::Tensor centeredSamples = torch::randn({nSplitSamples * nSplits, 3}, device);  // Nx3 of axis-aligned scales
             torch::Tensor scaledSamples = torch::exp(scales.index({splits}).repeat({nSplitSamples, 1})) * centeredSamples;
-            torch::Tensor qs = quats.index({splits});
-            torch::Tensor norms = torch::sqrt(torch::sum(qs.pow(2), -1, true)); // Calculate norm
-            qs = qs / norms; // Normalize the quaternions
-
+            torch::Tensor qs = quats.index({splits}) / torch::linalg_vector_norm(quats.index({splits}), 2, { -1 }, true, torch::kFloat32);
             torch::Tensor rots = quatToRotMat(qs.repeat({nSplitSamples, 1}));
             torch::Tensor rotatedSamples = torch::bmm(rots, scaledSamples.index({"...", None})).squeeze();
             torch::Tensor splitMeans = rotatedSamples + means.index({splits}).repeat({nSplitSamples, 1});
-
+            
             torch::Tensor splitFeaturesDc = featuresDc.index({splits}).repeat({nSplitSamples, 1});
             torch::Tensor splitFeaturesRest = featuresRest.index({splits}).repeat({nSplitSamples, 1, 1});
             
diff --git a/opensfm.cpp b/opensfm.cpp
@@ -84,32 +84,22 @@ InputData inputDataFromOpenSfM(const std::string &projectRoot){
 
     torch::Tensor unorientedPoses = torch::zeros({static_cast<long int>(shots.size()), 4, 4}, torch::kFloat32);
     size_t i = 0;
-    for (const auto &s : shots) {
+    for (const auto &s : shots){
         Shot shot = s.second;
 
         torch::Tensor rotation = rodriguesToRotation(torch::from_blob(shot.rotation.data(), {static_cast<long>(shot.rotation.size())}, torch::kFloat32));
         torch::Tensor translation = torch::from_blob(shot.translation.data(), {static_cast<long>(shot.translation.size())}, torch::kFloat32);
-
         torch::Tensor w2c = torch::eye(4, torch::kFloat32);
         w2c.index_put_({Slice(None, 3), Slice(None, 3)}, rotation);
-        w2c.index_put_({Slice(None, 3), Slice(3, 4)}, translation.reshape({3, 1}));
-
-        // Manually compute the inverse of w2c
-        torch::Tensor rotationT = rotation.transpose(0, 1);  // Transpose rotation (3x3)
-        torch::Tensor translationInv = -(rotationT.matmul(translation.reshape({3, 1})));  // -R^T * t
+        w2c.index_put_({Slice(None, 3), Slice(3,4)}, translation.reshape({3, 1}));
 
-        torch::Tensor invW2C = torch::eye(4, torch::kFloat32);
-        invW2C.index_put_({Slice(None, 3), Slice(None, 3)}, rotationT);  // Set rotation part
-        invW2C.index_put_({Slice(None, 3), Slice(3, 4)}, translationInv);  // Set translation part
-
-        unorientedPoses[i] = invW2C;
+        unorientedPoses[i] = torch::linalg_inv(w2c);
 
         // Convert OpenSfM's camera CRS (OpenCV) to OpenGL
-        unorientedPoses[i].index_put_({Slice(0, 3), Slice(1, 3)}, unorientedPoses[i].index({Slice(0, 3), Slice(1, 3)}) * -1.0f);
+        unorientedPoses[i].index_put_({Slice(0, 3), Slice(1,3)}, unorientedPoses[i].index({Slice(0, 3), Slice(1,3)}) * -1.0f);
         i++;
     }
 
-
     auto r = autoScaleAndCenterPoses(unorientedPoses);
     torch::Tensor poses = std::get<0>(r);
     ret.translation = std::get<1>(r);
diff --git a/tensor_math.cpp b/tensor_math.cpp
@@ -68,8 +68,7 @@ torch::Tensor rotationMatrix(const torch::Tensor &a, const torch::Tensor &b){
 }
 
 torch::Tensor rodriguesToRotation(const torch::Tensor &rodrigues){
-    torch::Tensor rodriguesNorm = torch::sqrt(torch::sum(rodrigues.pow(2), -1, true));  // Calculate L2 norm manually
-    float theta = rodriguesNorm.item<float>();  // Get the scalar value from the tensor
+    float theta = torch::linalg_vector_norm(rodrigues, 2, { -1 }, true, torch::kFloat32).item<float>();
     if (theta < FLOAT_EPS){
         return torch::eye(3, torch::kFloat32);
     }

Original file line number	Diff line number	Diff line change
`@@ -68,8 +68,7 @@ torch::Tensor rotationMatrix(const torch::Tensor &a, const torch::Tensor &b){`
`68`	`68`	`}`
`69`	`69`
`70`	`70`	`torch::Tensor rodriguesToRotation(const torch::Tensor &rodrigues){`
`71`		`- torch::Tensor rodriguesNorm = torch::sqrt(torch::sum(rodrigues.pow(2), -1, true)); // Calculate L2 norm manually`
`72`		`- float theta = rodriguesNorm.item<float>(); // Get the scalar value from the tensor`
	`71`	`+ float theta = torch::linalg_vector_norm(rodrigues, 2, { -1 }, true, torch::kFloat32).item<float>();`
`73`	`72`	`if (theta < FLOAT_EPS){`
`74`	`73`	`return torch::eye(3, torch::kFloat32);`
`75`	`74`	`}`