CEED
diff --git a/‎include/ceed/jit-source/cuda/cuda-gen-templates.h‎
Lines changed: 3 additions & 3 deletions b/‎include/ceed/jit-source/cuda/cuda-gen-templates.h‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎include/ceed/jit-source/cuda/cuda-shared-basis-tensor-at-points-templates.h‎
Lines changed: 5 additions & 0 deletions b/‎include/ceed/jit-source/cuda/cuda-shared-basis-tensor-at-points-templates.h‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎include/ceed/jit-source/cuda/cuda-shared-basis-tensor-at-points.h‎
Lines changed: 0 additions & 4 deletions b/‎include/ceed/jit-source/cuda/cuda-shared-basis-tensor-at-points.h‎
Lines changed: 0 additions & 4 deletions
diff --git a/‎include/ceed/jit-source/cuda/cuda-shared-basis-tensor-flattened-templates.h‎
Lines changed: 18 additions & 18 deletions b/‎include/ceed/jit-source/cuda/cuda-shared-basis-tensor-flattened-templates.h‎
Lines changed: 18 additions & 18 deletions
@@ -274,6 +274,7 @@ inline __device__ void GradColloSlice3d(SharedData_Cuda &data, const CeedInt q,
                                         CeedScalar *__restrict__ r_V) {
   if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) {
     for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
+      __syncthreads();
       data.slice[data.t_id_x + data.t_id_y * T_1D] = r_U[q + comp * Q_1D];
       __syncthreads();
       // X derivative
@@ -291,7 +292,6 @@ inline __device__ void GradColloSlice3d(SharedData_Cuda &data, const CeedInt q,
       for (CeedInt i = 0; i < Q_1D; i++) {
         r_V[comp + 2 * NUM_COMP] += c_G[i + q * Q_1D] * r_U[i + comp * Q_1D];
       }
-      __syncthreads();
     }
   }
 }
@@ -304,20 +304,20 @@ inline __device__ void GradColloSliceTranspose3d(SharedData_Cuda &data, const Ce
                                                  CeedScalar *__restrict__ r_V) {
   if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) {
     for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
+      __syncthreads();
       data.slice[data.t_id_x + data.t_id_y * T_1D] = r_U[comp + 0 * NUM_COMP];
       __syncthreads();
       // X derivative
       for (CeedInt i = 0; i < Q_1D; i++) {
         r_V[q + comp * Q_1D] += c_G[data.t_id_x + i * Q_1D] * data.slice[i + data.t_id_y * T_1D];
       }
-      __syncthreads();
       // Y derivative
+      __syncthreads();
       data.slice[data.t_id_x + data.t_id_y * T_1D] = r_U[comp + 1 * NUM_COMP];
       __syncthreads();
       for (CeedInt i = 0; i < Q_1D; i++) {
         r_V[q + comp * Q_1D] += c_G[data.t_id_y + i * Q_1D] * data.slice[data.t_id_x + i * T_1D];
       }
-      __syncthreads();
       // Z derivative
       for (CeedInt i = 0; i < Q_1D; i++) {
         r_V[i + comp * Q_1D] += c_G[i + q * Q_1D] * r_U[comp + 2 * NUM_COMP];
 
@@ -95,6 +95,7 @@ inline __device__ void GradAtPoints1d(SharedData_Cuda &data, const CeedInt p, co
   for (CeedInt i = 0; i < NUM_COMP; i++) r_V[i] = 0.0;
   for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
     // Load coefficients
+    __syncthreads();
     if (data.t_id_x < Q_1D) data.slice[data.t_id_x] = r_C[comp];
     __syncthreads();
     // Contract x direction
@@ -145,6 +146,7 @@ inline __device__ void InterpAtPoints2d(SharedData_Cuda &data, const CeedInt p,
     CeedScalar chebyshev_x[Q_1D];
 
     // Load coefficients
+    __syncthreads();
     if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) data.slice[data.t_id_x + data.t_id_y * Q_1D] = r_C[comp];
     __syncthreads();
     // Contract x direction
@@ -213,6 +215,7 @@ inline __device__ void GradAtPoints2d(SharedData_Cuda &data, const CeedInt p, co
     CeedScalar chebyshev_x[Q_1D];
 
     // Load coefficients
+    __syncthreads();
     if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) data.slice[data.t_id_x + data.t_id_y * Q_1D] = r_C[comp];
     __syncthreads();
     for (CeedInt dim = 0; dim < 2; dim++) {
@@ -294,6 +297,7 @@ inline __device__ void InterpAtPoints3d(SharedData_Cuda &data, const CeedInt p,
       CeedScalar chebyshev_x[Q_1D];
 
       // Load coefficients
+      __syncthreads();
       if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) data.slice[data.t_id_x + data.t_id_y * Q_1D] = r_C[k + comp * Q_1D];
       __syncthreads();
       // Contract x direction
@@ -372,6 +376,7 @@ inline __device__ void GradAtPoints3d(SharedData_Cuda &data, const CeedInt p, co
       CeedScalar chebyshev_x[Q_1D];
 
       // Load coefficients
+      __syncthreads();
       if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) data.slice[data.t_id_x + data.t_id_y * Q_1D] = r_C[k + comp * Q_1D];
       __syncthreads();
       for (CeedInt dim = 0; dim < 3; dim++) {
 
@@ -129,7 +129,6 @@ extern "C" __global__ void InterpTransposeAtPoints(const CeedInt num_elem, const
         InterpTransposeAtPoints3d<BASIS_NUM_COMP, BASIS_NUM_PTS, BASIS_P_1D, BASIS_Q_1D>(data, i, r_U, r_X, r_C);
       }
     }
-    __syncthreads();
 
     // Map from coefficients
     if (BASIS_DIM == 1) {
@@ -189,7 +188,6 @@ extern "C" __global__ void InterpTransposeAddAtPoints(const CeedInt num_elem, co
         InterpTransposeAtPoints3d<BASIS_NUM_COMP, BASIS_NUM_PTS, BASIS_P_1D, BASIS_Q_1D>(data, i, r_U, r_X, r_C);
       }
     }
-    __syncthreads();
 
     // Map from coefficients
     if (BASIS_DIM == 1) {
@@ -319,7 +317,6 @@ extern "C" __global__ void GradTransposeAtPoints(const CeedInt num_elem, const C
         GradTransposeAtPoints3d<BASIS_NUM_COMP, BASIS_NUM_PTS, BASIS_P_1D, BASIS_Q_1D>(data, i, r_U, r_X, r_C);
       }
     }
-    __syncthreads();
 
     // Map from coefficients
     if (BASIS_DIM == 1) {
@@ -380,7 +377,6 @@ extern "C" __global__ void GradTransposeAddAtPoints(const CeedInt num_elem, cons
         GradTransposeAtPoints3d<BASIS_NUM_COMP, BASIS_NUM_PTS, BASIS_P_1D, BASIS_Q_1D>(data, i, r_U, r_X, r_C);
       }
     }
-    __syncthreads();
 
     // Map from coefficients
     if (BASIS_DIM == 1) {
 
@@ -19,6 +19,7 @@
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractX2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar *U, const CeedScalar *B,
                                             CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -27,7 +28,6 @@ inline __device__ void ContractX2dFlattened(SharedData_Cuda &data, const int t_i
       *V += B[i + t_id_x * P_1D] * data.slice[i + t_id_y * T_1D];  // Contract x direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -36,6 +36,7 @@ inline __device__ void ContractX2dFlattened(SharedData_Cuda &data, const int t_i
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractY2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar *U, const CeedScalar *B,
                                             CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -44,7 +45,6 @@ inline __device__ void ContractY2dFlattened(SharedData_Cuda &data, const int t_i
       *V += B[i + t_id_y * P_1D] * data.slice[t_id_x + i * T_1D];  // Contract y direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -53,6 +53,7 @@ inline __device__ void ContractY2dFlattened(SharedData_Cuda &data, const int t_i
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeY2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar *U,
                                                      const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -61,7 +62,6 @@ inline __device__ void ContractTransposeY2dFlattened(SharedData_Cuda &data, cons
       *V += B[t_id_y + i * P_1D] * data.slice[t_id_x + i * T_1D];  // Contract y direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -70,6 +70,7 @@ inline __device__ void ContractTransposeY2dFlattened(SharedData_Cuda &data, cons
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeX2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar *U,
                                                      const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -78,7 +79,6 @@ inline __device__ void ContractTransposeX2dFlattened(SharedData_Cuda &data, cons
       *V += B[t_id_x + i * P_1D] * data.slice[i + t_id_y * T_1D];  // Contract x direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -87,14 +87,14 @@ inline __device__ void ContractTransposeX2dFlattened(SharedData_Cuda &data, cons
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeAddX2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar *U,
                                                         const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D] = *U;
   __syncthreads();
   if (t_id_x < P_1D && t_id_y < P_1D) {
     for (CeedInt i = 0; i < Q_1D; i++) {
       *V += B[t_id_x + i * P_1D] * data.slice[i + t_id_y * T_1D];  // Contract x direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -105,10 +105,10 @@ inline __device__ void QPack2d(SharedData_Cuda &data, const int t_id_x, const in
   const CeedInt new_t_id_x = data.t_id_x % Q_1D, new_t_id_y = data.t_id_x / Q_1D;
 
   for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
+    __syncthreads();
     if (t_id_x < Q_1D && t_id_y < Q_1D) data.slice[t_id_x + t_id_y * T_1D] = U[comp];
     __syncthreads();
     U[comp] = data.t_id_x < (Q_1D * Q_1D) ? data.slice[new_t_id_x + new_t_id_y * T_1D] : 0.0;
-    __syncthreads();
   }
 }
 
@@ -117,10 +117,10 @@ inline __device__ void QUnpack2d(SharedData_Cuda &data, const int t_id_x, const
   const CeedInt old_t_id_x = data.t_id_x % Q_1D, old_t_id_y = data.t_id_x / Q_1D;
 
   for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
+    __syncthreads();
     if (data.t_id_x < (Q_1D * Q_1D)) data.slice[old_t_id_x + old_t_id_y * T_1D] = U[comp];
     __syncthreads();
     U[comp] = (t_id_x < Q_1D && t_id_y < Q_1D) ? data.slice[t_id_x + t_id_y * T_1D] : 0.0;
-    __syncthreads();
   }
 }
 
@@ -218,6 +218,7 @@ inline __device__ void WeightTensor2dFlattened(SharedData_Cuda &data, const Ceed
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractX3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,
                                             const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -226,7 +227,6 @@ inline __device__ void ContractX3dFlattened(SharedData_Cuda &data, const int t_i
       *V += B[i + t_id_x * P_1D] * data.slice[i + t_id_y * T_1D + t_id_z * T_1D * T_1D];  // Contract x direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -235,6 +235,7 @@ inline __device__ void ContractX3dFlattened(SharedData_Cuda &data, const int t_i
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractY3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,
                                             const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -243,7 +244,6 @@ inline __device__ void ContractY3dFlattened(SharedData_Cuda &data, const int t_i
       *V += B[i + t_id_y * P_1D] * data.slice[t_id_x + i * T_1D + t_id_z * T_1D * T_1D];  // Contract y direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -252,6 +252,7 @@ inline __device__ void ContractY3dFlattened(SharedData_Cuda &data, const int t_i
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractZ3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,
                                             const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -260,7 +261,6 @@ inline __device__ void ContractZ3dFlattened(SharedData_Cuda &data, const int t_i
       *V += B[i + t_id_z * P_1D] * data.slice[t_id_x + t_id_y * T_1D + i * T_1D * T_1D];  // Contract z direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -269,6 +269,7 @@ inline __device__ void ContractZ3dFlattened(SharedData_Cuda &data, const int t_i
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeZ3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,
                                                      const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -277,7 +278,6 @@ inline __device__ void ContractTransposeZ3dFlattened(SharedData_Cuda &data, cons
       *V += B[t_id_z + i * P_1D] * data.slice[t_id_x + t_id_y * T_1D + i * T_1D * T_1D];  // Contract z direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -286,14 +286,14 @@ inline __device__ void ContractTransposeZ3dFlattened(SharedData_Cuda &data, cons
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeAddZ3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z,
                                                         const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   if (t_id_x < Q_1D && t_id_y < Q_1D && t_id_z < P_1D) {
     for (CeedInt i = 0; i < Q_1D; i++) {
       *V += B[t_id_z + i * P_1D] * data.slice[t_id_x + t_id_y * T_1D + i * T_1D * T_1D];  // Contract z direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -302,6 +302,7 @@ inline __device__ void ContractTransposeAddZ3dFlattened(SharedData_Cuda &data, c
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeY3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,
                                                      const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -310,7 +311,6 @@ inline __device__ void ContractTransposeY3dFlattened(SharedData_Cuda &data, cons
       *V += B[t_id_y + i * P_1D] * data.slice[t_id_x + i * T_1D + t_id_z * T_1D * T_1D];  // Contract y direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -319,14 +319,14 @@ inline __device__ void ContractTransposeY3dFlattened(SharedData_Cuda &data, cons
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeAddY3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z,
                                                         const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   if (t_id_x < Q_1D && t_id_y < P_1D && t_id_z < P_1D) {
     for (CeedInt i = 0; i < Q_1D; i++) {
       *V += B[t_id_y + i * P_1D] * data.slice[t_id_x + i * T_1D + t_id_z * T_1D * T_1D];  // Contract y direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -335,6 +335,7 @@ inline __device__ void ContractTransposeAddY3dFlattened(SharedData_Cuda &data, c
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeX3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,
                                                      const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   *V = 0.0;
@@ -343,7 +344,6 @@ inline __device__ void ContractTransposeX3dFlattened(SharedData_Cuda &data, cons
       *V += B[t_id_x + i * P_1D] * data.slice[i + t_id_y * T_1D + t_id_z * T_1D * T_1D];  // Contract x direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -352,14 +352,14 @@ inline __device__ void ContractTransposeX3dFlattened(SharedData_Cuda &data, cons
 template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>
 inline __device__ void ContractTransposeAddX3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z,
                                                         const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
+  __syncthreads();
   data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;
   __syncthreads();
   if (t_id_x < P_1D && t_id_y < P_1D && t_id_z < P_1D) {
     for (CeedInt i = 0; i < Q_1D; i++) {
       *V += B[t_id_x + i * P_1D] * data.slice[i + t_id_y * T_1D + t_id_z * T_1D * T_1D];  // Contract x direction
     }
   }
-  __syncthreads();
 }
 
 //------------------------------------------------------------------------------
@@ -370,10 +370,10 @@ inline __device__ void QPack3d(SharedData_Cuda &data, const int t_id_x, const in
   const CeedInt new_t_id_x = data.t_id_x % Q_1D, new_t_id_y = (data.t_id_x / Q_1D) % Q_1D, new_t_id_z = data.t_id_x / (Q_1D * Q_1D);
 
   for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
+    __syncthreads();
     if (t_id_x < Q_1D && t_id_y < Q_1D) data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = U[comp];
     __syncthreads();
     U[comp] = data.t_id_x < (Q_1D * Q_1D * Q_1D) ? data.slice[new_t_id_x + new_t_id_y * T_1D + new_t_id_z * T_1D * T_1D] : 0.0;
-    __syncthreads();
   }
 }
 
@@ -382,10 +382,10 @@ inline __device__ void QUnpack3d(SharedData_Cuda &data, const int t_id_x, const
   const CeedInt old_t_id_x = data.t_id_x % Q_1D, old_t_id_y = (data.t_id_x / Q_1D) % Q_1D, old_t_id_z = data.t_id_x / (Q_1D * Q_1D);
 
   for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
+    __syncthreads();
     if (data.t_id_x < Q_1D * Q_1D * Q_1D) data.slice[old_t_id_x + old_t_id_y * T_1D + old_t_id_z * T_1D * T_1D] = U[comp];
     __syncthreads();
     U[comp] = (t_id_x < Q_1D && t_id_y < Q_1D) ? data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] : 0.0;
-    __syncthreads();
   }
 }
Original file line number	Diff line number	Diff line change
`@@ -129,7 +129,6 @@ extern "C" __global__ void InterpTransposeAtPoints(const CeedInt num_elem, const`
`129`	`129`	`InterpTransposeAtPoints3d<BASIS_NUM_COMP, BASIS_NUM_PTS, BASIS_P_1D, BASIS_Q_1D>(data, i, r_U, r_X, r_C);`
`130`	`130`	`}`
`131`	`131`	`}`
`132`		`- __syncthreads();`
`133`	`132`
`134`	`133`	`// Map from coefficients`
`135`	`134`	`if (BASIS_DIM == 1) {`
`@@ -189,7 +188,6 @@ extern "C" __global__ void InterpTransposeAddAtPoints(const CeedInt num_elem, co`
`189`	`188`	`InterpTransposeAtPoints3d<BASIS_NUM_COMP, BASIS_NUM_PTS, BASIS_P_1D, BASIS_Q_1D>(data, i, r_U, r_X, r_C);`
`190`	`189`	`}`
`191`	`190`	`}`
`192`		`- __syncthreads();`
`193`	`191`
`194`	`192`	`// Map from coefficients`
`195`	`193`	`if (BASIS_DIM == 1) {`
`@@ -319,7 +317,6 @@ extern "C" __global__ void GradTransposeAtPoints(const CeedInt num_elem, const C`
`319`	`317`	`GradTransposeAtPoints3d<BASIS_NUM_COMP, BASIS_NUM_PTS, BASIS_P_1D, BASIS_Q_1D>(data, i, r_U, r_X, r_C);`
`320`	`318`	`}`
`321`	`319`	`}`
`322`		`- __syncthreads();`
`323`	`320`
`324`	`321`	`// Map from coefficients`
`325`	`322`	`if (BASIS_DIM == 1) {`
`@@ -380,7 +377,6 @@ extern "C" __global__ void GradTransposeAddAtPoints(const CeedInt num_elem, cons`
`380`	`377`	`GradTransposeAtPoints3d<BASIS_NUM_COMP, BASIS_NUM_PTS, BASIS_P_1D, BASIS_Q_1D>(data, i, r_U, r_X, r_C);`
`381`	`378`	`}`
`382`	`379`	`}`
`383`		`- __syncthreads();`
`384`	`380`
`385`	`381`	`// Map from coefficients`
`386`	`382`	`if (BASIS_DIM == 1) {`
Original file line number	Diff line number	Diff line change
`@@ -19,6 +19,7 @@`
`19`	`19`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`20`	`20`	`inline __device__ void ContractX2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar U, const CeedScalar B,`
`21`	`21`	`CeedScalar *V) {`
	`22`	`+ __syncthreads();`
`22`	`23`	`data.slice[t_id_x + t_id_y * T_1D] = *U;`
`23`	`24`	`__syncthreads();`
`24`	`25`	`*V = 0.0;`
`@@ -27,7 +28,6 @@ inline __device__ void ContractX2dFlattened(SharedData_Cuda &data, const int t_i`
`27`	`28`	`V += B[i + t_id_x P_1D] * data.slice[i + t_id_y * T_1D]; // Contract x direction`
`28`	`29`	`}`
`29`	`30`	`}`
`30`		`- __syncthreads();`
`31`	`31`	`}`
`32`	`32`
`33`	`33`	`//------------------------------------------------------------------------------`
`@@ -36,6 +36,7 @@ inline __device__ void ContractX2dFlattened(SharedData_Cuda &data, const int t_i`
`36`	`36`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`37`	`37`	`inline __device__ void ContractY2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar U, const CeedScalar B,`
`38`	`38`	`CeedScalar *V) {`
	`39`	`+ __syncthreads();`
`39`	`40`	`data.slice[t_id_x + t_id_y * T_1D] = *U;`
`40`	`41`	`__syncthreads();`
`41`	`42`	`*V = 0.0;`
`@@ -44,7 +45,6 @@ inline __device__ void ContractY2dFlattened(SharedData_Cuda &data, const int t_i`
`44`	`45`	`V += B[i + t_id_y P_1D] * data.slice[t_id_x + i * T_1D]; // Contract y direction`
`45`	`46`	`}`
`46`	`47`	`}`
`47`		`- __syncthreads();`
`48`	`48`	`}`
`49`	`49`
`50`	`50`	`//------------------------------------------------------------------------------`
`@@ -53,6 +53,7 @@ inline __device__ void ContractY2dFlattened(SharedData_Cuda &data, const int t_i`
`53`	`53`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`54`	`54`	`inline __device__ void ContractTransposeY2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar *U,`
`55`	`55`	`const CeedScalar B, CeedScalar V) {`
	`56`	`+ __syncthreads();`
`56`	`57`	`data.slice[t_id_x + t_id_y * T_1D] = *U;`
`57`	`58`	`__syncthreads();`
`58`	`59`	`*V = 0.0;`
`@@ -61,7 +62,6 @@ inline __device__ void ContractTransposeY2dFlattened(SharedData_Cuda &data, cons`
`61`	`62`	`V += B[t_id_y + i P_1D] * data.slice[t_id_x + i * T_1D]; // Contract y direction`
`62`	`63`	`}`
`63`	`64`	`}`
`64`		`- __syncthreads();`
`65`	`65`	`}`
`66`	`66`
`67`	`67`	`//------------------------------------------------------------------------------`
`@@ -70,6 +70,7 @@ inline __device__ void ContractTransposeY2dFlattened(SharedData_Cuda &data, cons`
`70`	`70`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`71`	`71`	`inline __device__ void ContractTransposeX2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar *U,`
`72`	`72`	`const CeedScalar B, CeedScalar V) {`
	`73`	`+ __syncthreads();`
`73`	`74`	`data.slice[t_id_x + t_id_y * T_1D] = *U;`
`74`	`75`	`__syncthreads();`
`75`	`76`	`*V = 0.0;`
`@@ -78,7 +79,6 @@ inline __device__ void ContractTransposeX2dFlattened(SharedData_Cuda &data, cons`
`78`	`79`	`V += B[t_id_x + i P_1D] * data.slice[i + t_id_y * T_1D]; // Contract x direction`
`79`	`80`	`}`
`80`	`81`	`}`
`81`		`- __syncthreads();`
`82`	`82`	`}`
`83`	`83`
`84`	`84`	`//------------------------------------------------------------------------------`
`@@ -87,14 +87,14 @@ inline __device__ void ContractTransposeX2dFlattened(SharedData_Cuda &data, cons`
`87`	`87`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`88`	`88`	`inline __device__ void ContractTransposeAddX2dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const CeedScalar *U,`
`89`	`89`	`const CeedScalar B, CeedScalar V) {`
	`90`	`+ __syncthreads();`
`90`	`91`	`data.slice[t_id_x + t_id_y * T_1D] = *U;`
`91`	`92`	`__syncthreads();`
`92`	`93`	`if (t_id_x < P_1D && t_id_y < P_1D) {`
`93`	`94`	`for (CeedInt i = 0; i < Q_1D; i++) {`
`94`	`95`	`V += B[t_id_x + i P_1D] * data.slice[i + t_id_y * T_1D]; // Contract x direction`
`95`	`96`	`}`
`96`	`97`	`}`
`97`		`- __syncthreads();`
`98`	`98`	`}`
`99`	`99`
`100`	`100`	`//------------------------------------------------------------------------------`
`@@ -105,10 +105,10 @@ inline __device__ void QPack2d(SharedData_Cuda &data, const int t_id_x, const in`
`105`	`105`	`const CeedInt new_t_id_x = data.t_id_x % Q_1D, new_t_id_y = data.t_id_x / Q_1D;`
`106`	`106`
`107`	`107`	`for (CeedInt comp = 0; comp < NUM_COMP; comp++) {`
	`108`	`+ __syncthreads();`
`108`	`109`	`if (t_id_x < Q_1D && t_id_y < Q_1D) data.slice[t_id_x + t_id_y * T_1D] = U[comp];`
`109`	`110`	`__syncthreads();`
`110`	`111`	`U[comp] = data.t_id_x < (Q_1D * Q_1D) ? data.slice[new_t_id_x + new_t_id_y * T_1D] : 0.0;`
`111`		`- __syncthreads();`
`112`	`112`	`}`
`113`	`113`	`}`
`114`	`114`
`@@ -117,10 +117,10 @@ inline __device__ void QUnpack2d(SharedData_Cuda &data, const int t_id_x, const`
`117`	`117`	`const CeedInt old_t_id_x = data.t_id_x % Q_1D, old_t_id_y = data.t_id_x / Q_1D;`
`118`	`118`
`119`	`119`	`for (CeedInt comp = 0; comp < NUM_COMP; comp++) {`
	`120`	`+ __syncthreads();`
`120`	`121`	`if (data.t_id_x < (Q_1D * Q_1D)) data.slice[old_t_id_x + old_t_id_y * T_1D] = U[comp];`
`121`	`122`	`__syncthreads();`
`122`	`123`	`U[comp] = (t_id_x < Q_1D && t_id_y < Q_1D) ? data.slice[t_id_x + t_id_y * T_1D] : 0.0;`
`123`		`- __syncthreads();`
`124`	`124`	`}`
`125`	`125`	`}`
`126`	`126`
`@@ -218,6 +218,7 @@ inline __device__ void WeightTensor2dFlattened(SharedData_Cuda &data, const Ceed`
`218`	`218`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`219`	`219`	`inline __device__ void ContractX3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,`
`220`	`220`	`const CeedScalar B, CeedScalar V) {`
	`221`	`+ __syncthreads();`
`221`	`222`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`222`	`223`	`__syncthreads();`
`223`	`224`	`*V = 0.0;`
`@@ -226,7 +227,6 @@ inline __device__ void ContractX3dFlattened(SharedData_Cuda &data, const int t_i`
`226`	`227`	`V += B[i + t_id_x P_1D] * data.slice[i + t_id_y * T_1D + t_id_z * T_1D * T_1D]; // Contract x direction`
`227`	`228`	`}`
`228`	`229`	`}`
`229`		`- __syncthreads();`
`230`	`230`	`}`
`231`	`231`
`232`	`232`	`//------------------------------------------------------------------------------`
`@@ -235,6 +235,7 @@ inline __device__ void ContractX3dFlattened(SharedData_Cuda &data, const int t_i`
`235`	`235`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`236`	`236`	`inline __device__ void ContractY3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,`
`237`	`237`	`const CeedScalar B, CeedScalar V) {`
	`238`	`+ __syncthreads();`
`238`	`239`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`239`	`240`	`__syncthreads();`
`240`	`241`	`*V = 0.0;`
`@@ -243,7 +244,6 @@ inline __device__ void ContractY3dFlattened(SharedData_Cuda &data, const int t_i`
`243`	`244`	`V += B[i + t_id_y P_1D] * data.slice[t_id_x + i * T_1D + t_id_z * T_1D * T_1D]; // Contract y direction`
`244`	`245`	`}`
`245`	`246`	`}`
`246`		`- __syncthreads();`
`247`	`247`	`}`
`248`	`248`
`249`	`249`	`//------------------------------------------------------------------------------`
`@@ -252,6 +252,7 @@ inline __device__ void ContractY3dFlattened(SharedData_Cuda &data, const int t_i`
`252`	`252`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`253`	`253`	`inline __device__ void ContractZ3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,`
`254`	`254`	`const CeedScalar B, CeedScalar V) {`
	`255`	`+ __syncthreads();`
`255`	`256`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`256`	`257`	`__syncthreads();`
`257`	`258`	`*V = 0.0;`
`@@ -260,7 +261,6 @@ inline __device__ void ContractZ3dFlattened(SharedData_Cuda &data, const int t_i`
`260`	`261`	`V += B[i + t_id_z P_1D] * data.slice[t_id_x + t_id_y * T_1D + i * T_1D * T_1D]; // Contract z direction`
`261`	`262`	`}`
`262`	`263`	`}`
`263`		`- __syncthreads();`
`264`	`264`	`}`
`265`	`265`
`266`	`266`	`//------------------------------------------------------------------------------`
`@@ -269,6 +269,7 @@ inline __device__ void ContractZ3dFlattened(SharedData_Cuda &data, const int t_i`
`269`	`269`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`270`	`270`	`inline __device__ void ContractTransposeZ3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,`
`271`	`271`	`const CeedScalar B, CeedScalar V) {`
	`272`	`+ __syncthreads();`
`272`	`273`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`273`	`274`	`__syncthreads();`
`274`	`275`	`*V = 0.0;`
`@@ -277,7 +278,6 @@ inline __device__ void ContractTransposeZ3dFlattened(SharedData_Cuda &data, cons`
`277`	`278`	`V += B[t_id_z + i P_1D] * data.slice[t_id_x + t_id_y * T_1D + i * T_1D * T_1D]; // Contract z direction`
`278`	`279`	`}`
`279`	`280`	`}`
`280`		`- __syncthreads();`
`281`	`281`	`}`
`282`	`282`
`283`	`283`	`//------------------------------------------------------------------------------`
`@@ -286,14 +286,14 @@ inline __device__ void ContractTransposeZ3dFlattened(SharedData_Cuda &data, cons`
`286`	`286`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`287`	`287`	`inline __device__ void ContractTransposeAddZ3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z,`
`288`	`288`	`const CeedScalar U, const CeedScalar B, CeedScalar *V) {`
	`289`	`+ __syncthreads();`
`289`	`290`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`290`	`291`	`__syncthreads();`
`291`	`292`	`if (t_id_x < Q_1D && t_id_y < Q_1D && t_id_z < P_1D) {`
`292`	`293`	`for (CeedInt i = 0; i < Q_1D; i++) {`
`293`	`294`	`V += B[t_id_z + i P_1D] * data.slice[t_id_x + t_id_y * T_1D + i * T_1D * T_1D]; // Contract z direction`
`294`	`295`	`}`
`295`	`296`	`}`
`296`		`- __syncthreads();`
`297`	`297`	`}`
`298`	`298`
`299`	`299`	`//------------------------------------------------------------------------------`
`@@ -302,6 +302,7 @@ inline __device__ void ContractTransposeAddZ3dFlattened(SharedData_Cuda &data, c`
`302`	`302`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`303`	`303`	`inline __device__ void ContractTransposeY3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,`
`304`	`304`	`const CeedScalar B, CeedScalar V) {`
	`305`	`+ __syncthreads();`
`305`	`306`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`306`	`307`	`__syncthreads();`
`307`	`308`	`*V = 0.0;`
`@@ -310,7 +311,6 @@ inline __device__ void ContractTransposeY3dFlattened(SharedData_Cuda &data, cons`
`310`	`311`	`V += B[t_id_y + i P_1D] * data.slice[t_id_x + i * T_1D + t_id_z * T_1D * T_1D]; // Contract y direction`
`311`	`312`	`}`
`312`	`313`	`}`
`313`		`- __syncthreads();`
`314`	`314`	`}`
`315`	`315`
`316`	`316`	`//------------------------------------------------------------------------------`
`@@ -319,14 +319,14 @@ inline __device__ void ContractTransposeY3dFlattened(SharedData_Cuda &data, cons`
`319`	`319`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`320`	`320`	`inline __device__ void ContractTransposeAddY3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z,`
`321`	`321`	`const CeedScalar U, const CeedScalar B, CeedScalar *V) {`
	`322`	`+ __syncthreads();`
`322`	`323`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`323`	`324`	`__syncthreads();`
`324`	`325`	`if (t_id_x < Q_1D && t_id_y < P_1D && t_id_z < P_1D) {`
`325`	`326`	`for (CeedInt i = 0; i < Q_1D; i++) {`
`326`	`327`	`V += B[t_id_y + i P_1D] * data.slice[t_id_x + i * T_1D + t_id_z * T_1D * T_1D]; // Contract y direction`
`327`	`328`	`}`
`328`	`329`	`}`
`329`		`- __syncthreads();`
`330`	`330`	`}`
`331`	`331`
`332`	`332`	`//------------------------------------------------------------------------------`
`@@ -335,6 +335,7 @@ inline __device__ void ContractTransposeAddY3dFlattened(SharedData_Cuda &data, c`
`335`	`335`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`336`	`336`	`inline __device__ void ContractTransposeX3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z, const CeedScalar *U,`
`337`	`337`	`const CeedScalar B, CeedScalar V) {`
	`338`	`+ __syncthreads();`
`338`	`339`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`339`	`340`	`__syncthreads();`
`340`	`341`	`*V = 0.0;`
`@@ -343,7 +344,6 @@ inline __device__ void ContractTransposeX3dFlattened(SharedData_Cuda &data, cons`
`343`	`344`	`V += B[t_id_x + i P_1D] * data.slice[i + t_id_y * T_1D + t_id_z * T_1D * T_1D]; // Contract x direction`
`344`	`345`	`}`
`345`	`346`	`}`
`346`		`- __syncthreads();`
`347`	`347`	`}`
`348`	`348`
`349`	`349`	`//------------------------------------------------------------------------------`
`@@ -352,14 +352,14 @@ inline __device__ void ContractTransposeX3dFlattened(SharedData_Cuda &data, cons`
`352`	`352`	`template <int NUM_COMP, int P_1D, int Q_1D, int T_1D>`
`353`	`353`	`inline __device__ void ContractTransposeAddX3dFlattened(SharedData_Cuda &data, const int t_id_x, const int t_id_y, const int t_id_z,`
`354`	`354`	`const CeedScalar U, const CeedScalar B, CeedScalar *V) {`
	`355`	`+ __syncthreads();`
`355`	`356`	`data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = *U;`
`356`	`357`	`__syncthreads();`
`357`	`358`	`if (t_id_x < P_1D && t_id_y < P_1D && t_id_z < P_1D) {`
`358`	`359`	`for (CeedInt i = 0; i < Q_1D; i++) {`
`359`	`360`	`V += B[t_id_x + i P_1D] * data.slice[i + t_id_y * T_1D + t_id_z * T_1D * T_1D]; // Contract x direction`
`360`	`361`	`}`
`361`	`362`	`}`
`362`		`- __syncthreads();`
`363`	`363`	`}`
`364`	`364`
`365`	`365`	`//------------------------------------------------------------------------------`
`@@ -370,10 +370,10 @@ inline __device__ void QPack3d(SharedData_Cuda &data, const int t_id_x, const in`
`370`	`370`	`const CeedInt new_t_id_x = data.t_id_x % Q_1D, new_t_id_y = (data.t_id_x / Q_1D) % Q_1D, new_t_id_z = data.t_id_x / (Q_1D * Q_1D);`
`371`	`371`
`372`	`372`	`for (CeedInt comp = 0; comp < NUM_COMP; comp++) {`
	`373`	`+ __syncthreads();`
`373`	`374`	`if (t_id_x < Q_1D && t_id_y < Q_1D) data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] = U[comp];`
`374`	`375`	`__syncthreads();`
`375`	`376`	`U[comp] = data.t_id_x < (Q_1D * Q_1D * Q_1D) ? data.slice[new_t_id_x + new_t_id_y * T_1D + new_t_id_z * T_1D * T_1D] : 0.0;`
`376`		`- __syncthreads();`
`377`	`377`	`}`
`378`	`378`	`}`
`379`	`379`
`@@ -382,10 +382,10 @@ inline __device__ void QUnpack3d(SharedData_Cuda &data, const int t_id_x, const`
`382`	`382`	`const CeedInt old_t_id_x = data.t_id_x % Q_1D, old_t_id_y = (data.t_id_x / Q_1D) % Q_1D, old_t_id_z = data.t_id_x / (Q_1D * Q_1D);`
`383`	`383`
`384`	`384`	`for (CeedInt comp = 0; comp < NUM_COMP; comp++) {`
	`385`	`+ __syncthreads();`
`385`	`386`	`if (data.t_id_x < Q_1D * Q_1D * Q_1D) data.slice[old_t_id_x + old_t_id_y * T_1D + old_t_id_z * T_1D * T_1D] = U[comp];`
`386`	`387`	`__syncthreads();`
`387`	`388`	`U[comp] = (t_id_x < Q_1D && t_id_y < Q_1D) ? data.slice[t_id_x + t_id_y * T_1D + t_id_z * T_1D * T_1D] : 0.0;`
`388`		`- __syncthreads();`
`389`	`389`	`}`
`390`	`390`	`}`
`391`	`391`