miguelcarcamov
diff --git a/‎include/MSFITSIO.cuh‎
Lines changed: 2 additions & 1 deletion b/‎include/MSFITSIO.cuh‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎include/classes/ckernel.cuh‎
Lines changed: 28 additions & 0 deletions b/‎include/classes/ckernel.cuh‎
Lines changed: 28 additions & 0 deletions
diff --git a/‎include/functions.cuh‎
Lines changed: 52 additions & 28 deletions b/‎include/functions.cuh‎
Lines changed: 52 additions & 28 deletions
diff --git a/‎src/MSFITSIO.cu‎
Lines changed: 32 additions & 25 deletions b/‎src/MSFITSIO.cu‎
Lines changed: 32 additions & 25 deletions
@@ -221,7 +221,8 @@ __host__ void MScopy(const char* in_dir, const char* in_dir_dest);
 __host__ void modelToHost(std::vector<Field>& fields,
                           MSData data,
                           int num_gpus,
-                          int firstgpu);
+                          int firstgpu,
+                          bool apply_hermitian_conjugation = true);
 __host__ void writeMS(const char* outfile,
                       const char* out_col,
                       std::vector<Field> fields,
 
@@ -548,5 +548,33 @@ class CKernel {
                                sizeof(float) * this->m_times_n,
                                cudaMemcpyHostToDevice));
   };
+
+  /**
+   * Normalize kernel so that sum of all values equals 1.
+   * This ensures proper energy conservation for gridding/degridding operations.
+   * For convolution gridding: grid[i] = Σ(kernel * vis)
+   * For degridding: vis = Σ(kernel * grid[i])
+   * Normalization ensures these operations are properly matched.
+   */
+  __host__ void normalizeKernel() {
+    float kernel_sum = 0.0f;
+    
+    // Compute sum of all kernel values
+    for (int i = 0; i < this->m; i++) {
+      for (int j = 0; j < this->n; j++) {
+        kernel_sum += this->kernel[this->n * i + j];
+      }
+    }
+    
+    // Normalize kernel so sum = 1
+    if (kernel_sum > 0.0f) {
+      float norm_factor = 1.0f / kernel_sum;
+      for (int i = 0; i < this->m; i++) {
+        for (int j = 0; j < this->n; j++) {
+          this->kernel[this->n * i + j] *= norm_factor;
+        }
+      }
+    }
+  };
 };
 #endif  // CKERNEL_CUH
@@ -96,11 +96,6 @@ __host__ void griddedTogrid(std::vector<cufftComplex>& Vm_gridded,
                             long M,
                             long N,
                             int numvis);
-__host__ void getOriginalVisibilitiesBack(std::vector<Field>& fields,
-                                          MSData data,
-                                          int num_gpus,
-                                          int firstgpu,
-                                          int blockSizeV);
 __host__ void degridding(std::vector<Field>& fields,
                          MSData data,
                          double deltau,
@@ -110,7 +105,10 @@ __host__ void degridding(std::vector<Field>& fields,
                          int blockSizeV,
                          long M,
                          long N,
-                         CKernel* ckernel);
+                         CKernel* ckernel,
+                         float* I,
+                         VirtualImageProcessor* ip,
+                         MSDataset& dataset);
 __host__ float calculateNoiseAndBeam(std::vector<MSDataset>& datasets,
                                      int* total_visibilities,
                                      int blockSizeV,
@@ -130,6 +128,27 @@ __host__ void initFFT(varsPerGPU* vars_gpu,
                       long N,
                       int firstgpu,
                       int num_gpus);
+// Helper function to compute visibility grid from image (common pipeline)
+// This encapsulates the repeated pattern: calculateInu -> apply_beam -> apply_GCF -> FFT2D -> phase_rotate
+__host__ void computeImageToVisibilityGrid(
+    float* I,
+    VirtualImageProcessor* ip,
+    varsPerGPU* vars_gpu,
+    int gpu_idx,
+    long M,
+    long N,
+    float nu,
+    float ref_xobs_pix,
+    float ref_yobs_pix,
+    float phs_xobs_pix,
+    float phs_yobs_pix,
+    float antenna_diameter,
+    float pb_factor,
+    float pb_cutoff,
+    int primary_beam,
+    float fg_scale,
+    CKernel* ckernel,
+    bool fft_shift);
 __host__ void FFT2D(cufftComplex* output_data,
                     cufftComplex* input_data,
                     cufftHandle plan,
@@ -356,10 +375,12 @@ __global__ void newPNoPositivity(cufftComplex* p,
                                  float xmin,
                                  long N);
 __global__ void clip(cufftComplex* I, long N, float MINPIX);
-__global__ void hermitianSymmetry(double3* UVW,
-                                  cufftComplex* Vo,
-                                  float freq,
-                                  int numVisibilities);
+__global__ void applyHermitianSymmetry(double3* UVW,
+                                       cufftComplex* Vo,
+                                       int numVisibilities);
+__global__ void convertUVWToLambda(double3* UVW,
+                                   float freq,
+                                   int numVisibilities);
 __global__ void distance_image(float* distance_image,
                                float xobs,
                                float yobs,
@@ -388,26 +409,25 @@ __global__ void phase_rotate(cufftComplex* __restrict__ data,
                              long M,
                              long N,
                              double xphs,
-                             double yphs);
+                             double yphs,
+                             double crpix1,
+                             double crpix2,
+                             bool dc_at_center);
 // Optimized bilinear interpolation kernels using regular global memory with
 // __ldg()
-__global__ void vis_mod(cufftComplex* __restrict__ Vm,
-                        const cufftComplex* __restrict__ V,
-                        const double3* __restrict__ UVW,
-                        float* __restrict__ weight,
-                        const double deltau,
-                        const double deltav,
-                        const long numVisibilities,
-                        const long N);
-__global__ void vis_mod2(cufftComplex* __restrict__ Vm,
-                         const cufftComplex* __restrict__ V,
-                         const double3* __restrict__ UVW,
-                         float* __restrict__ weight,
-                         const double deltau,
-                         const double deltav,
-                         const long numVisibilities,
-                         const long N,
-                         const float N_half);
+// Bilinear interpolation of visibilities from gridded visibility plane
+// dc_at_center: true if DC component is at center (N/2, M/2), false if at corner (0,0)
+__global__ void bilinearInterpolateVisibility(
+    cufftComplex* __restrict__ Vm,
+    const cufftComplex* __restrict__ V,
+    const double3* __restrict__ UVW,
+    float* __restrict__ weight,
+    const double deltau,
+    const double deltav,
+    const long numVisibilities,
+    const long M,
+    const long N,
+    const bool dc_at_center);
 __global__ void residual(cufftComplex* __restrict__ Vr,
                          const cufftComplex* __restrict__ Vm,
                          const cufftComplex* __restrict__ Vo,
@@ -633,6 +653,7 @@ __global__ void CGGradCondition(float* temp,
                                 int image);
 __global__ void searchDirection_LBFGS(float* xi, long N, long M, int image);
 __global__ void fftshift_2D(cufftComplex* data, int N1, int N2);
+__global__ void ifftshift_2D(cufftComplex* data, int N1, int N2);
 __global__ void do_griddingGPU(float3* uvw,
                                cufftComplex* Vo,
                                cufftComplex* Vo_g,
@@ -657,5 +678,8 @@ __global__ void degriddingGPU(double3* uvw,
                               int kernel_n,
                               int supportX,
                               int supportY);
+__global__ void apply_GCF(cufftComplex* __restrict__ image,
+                          const float* __restrict__ gcf,
+                          long N);
 
 #endif
@@ -487,16 +487,16 @@ __host__ void readMS(const char* MS_name,
   casacore::Table maxuv_metres_tab(
       casacore::tableCommand(maxuv_metres_query.c_str()));
 
-  casacore::ROScalarColumn<casacore::Double> max_blength_col(
+  casacore::ROScalarColumn<double> max_blength_col(
       maxmin_baseline_tab, "MAX_BLENGTH");
-  casacore::ROScalarColumn<casacore::Double> min_blength_col(
+  casacore::ROScalarColumn<double> min_blength_col(
       maxmin_baseline_tab, "MIN_BLENGTH");
-  casacore::ROScalarColumn<casacore::Double> maxuv_metres_col(maxuv_metres_tab,
+  casacore::ROScalarColumn<double> maxuv_metres_col(maxuv_metres_tab,
                                                               "MAXUV");
 
-  casacore::ROScalarColumn<casacore::Double> min_freq_col(freq_tab, "MIN_FREQ");
-  casacore::ROScalarColumn<casacore::Double> max_freq_col(freq_tab, "MAX_FREQ");
-  casacore::ROScalarColumn<casacore::Double> ref_freq_col(freq_tab, "REF_FREQ");
+  casacore::ROScalarColumn<double> min_freq_col(freq_tab, "MIN_FREQ");
+  casacore::ROScalarColumn<double> max_freq_col(freq_tab, "MAX_FREQ");
+  casacore::ROScalarColumn<double> ref_freq_col(freq_tab, "REF_FREQ");
 
   data->nantennas = antenna_tab.nrow();
   data->nbaselines = (data->nantennas) * (data->nantennas - 1) / 2;
@@ -509,9 +509,9 @@ __host__ void readMS(const char* MS_name,
 
   float max_wavelength = freq_to_wavelength(data->min_freq);
 
-  casacore::ROArrayColumn<casacore::Double> dishposition_col(antenna_tab,
+  casacore::ROArrayColumn<double> dishposition_col(antenna_tab,
                                                              "POSITION");
-  casacore::ROScalarColumn<casacore::Double> dishdiameter_col(antenna_tab,
+  casacore::ROScalarColumn<double> dishdiameter_col(antenna_tab,
                                                               "DISH_DIAMETER");
   casacore::ROScalarColumn<casacore::String> dishname_col(antenna_tab, "NAME");
   casacore::ROScalarColumn<casacore::String> dishstation_col(antenna_tab,
@@ -584,7 +584,7 @@ __host__ void readMS(const char* MS_name,
 
   data->n_internal_frequencies = spectral_window_tab.nrow();
 
-  casacore::ROArrayColumn<casacore::Float> chan_freq_col(spectral_window_tab,
+  casacore::ROArrayColumn<double> chan_freq_col(spectral_window_tab,
                                                           "CHAN_FREQ");
 
   casacore::ROScalarColumn<casacore::Int64> n_chan_freq(spectral_window_tab,
@@ -609,7 +609,7 @@ __host__ void readMS(const char* MS_name,
 
   for (int f = 0; f < data->nfields; f++) {
     for (int i = 0; i < data->n_internal_frequencies; i++) {
-      casacore::Vector<float> chan_freq_vector;
+      casacore::Vector<double> chan_freq_vector;
       chan_freq_vector = chan_freq_col(i);
       for (int j = 0; j < data->channels[i]; j++) {
         fields[f].nu.push_back(chan_freq_vector[j]);
@@ -837,16 +837,16 @@ __host__ void readMS(const char* MS_name,
   casacore::Table maxuv_metres_tab(
       casacore::tableCommand(maxuv_metres_query.c_str()));
 
-  casacore::ROScalarColumn<casacore::Double> max_blength_col(
+  casacore::ROScalarColumn<double> max_blength_col(
       maxmin_baseline_tab, "MAX_BLENGTH");
-  casacore::ROScalarColumn<casacore::Double> min_blength_col(
+  casacore::ROScalarColumn<double> min_blength_col(
       maxmin_baseline_tab, "MIN_BLENGTH");
-  casacore::ROScalarColumn<casacore::Double> maxuv_metres_col(maxuv_metres_tab,
+  casacore::ROScalarColumn<double> maxuv_metres_col(maxuv_metres_tab,
                                                               "MAXUV");
 
-  casacore::ROScalarColumn<casacore::Double> min_freq_col(freq_tab, "MIN_FREQ");
-  casacore::ROScalarColumn<casacore::Double> max_freq_col(freq_tab, "MAX_FREQ");
-  casacore::ROScalarColumn<casacore::Double> ref_freq_col(freq_tab, "REF_FREQ");
+  casacore::ROScalarColumn<double> min_freq_col(freq_tab, "MIN_FREQ");
+  casacore::ROScalarColumn<double> max_freq_col(freq_tab, "MAX_FREQ");
+  casacore::ROScalarColumn<double> ref_freq_col(freq_tab, "REF_FREQ");
 
   data->nantennas = antenna_tab.nrow();
   data->nbaselines = (data->nantennas) * (data->nantennas - 1) / 2;
@@ -859,9 +859,9 @@ __host__ void readMS(const char* MS_name,
 
   float max_wavelength = freq_to_wavelength(data->min_freq);
 
-  casacore::ROArrayColumn<casacore::Double> dishposition_col(antenna_tab,
+  casacore::ROArrayColumn<double> dishposition_col(antenna_tab,
                                                              "POSITION");
-  casacore::ROScalarColumn<casacore::Double> dishdiameter_col(antenna_tab,
+  casacore::ROScalarColumn<double> dishdiameter_col(antenna_tab,
                                                               "DISH_DIAMETER");
   casacore::ROScalarColumn<casacore::String> dishname_col(antenna_tab, "NAME");
   casacore::ROScalarColumn<casacore::String> dishstation_col(antenna_tab,
@@ -934,7 +934,7 @@ __host__ void readMS(const char* MS_name,
 
   data->n_internal_frequencies = spectral_window_tab.nrow();
 
-  casacore::ROArrayColumn<casacore::Float> chan_freq_col(spectral_window_tab,
+  casacore::ROArrayColumn<float> chan_freq_col(spectral_window_tab,
                                                           "CHAN_FREQ");
 
   casacore::ROScalarColumn<casacore::Int64> n_chan_freq(spectral_window_tab,
@@ -1114,7 +1114,8 @@ __host__ void MScopy(const char* in_dir, const char* in_dir_dest) {
 __host__ void modelToHost(std::vector<Field>& fields,
                           MSData data,
                           int num_gpus,
-                          int firstgpu) {
+                          int firstgpu,
+                          bool apply_hermitian_conjugation) {
   for (int f = 0; f < data.nfields; f++) {
     for (int i = 0; i < data.total_frequencies; i++) {
       cudaSetDevice((i % num_gpus) + firstgpu);
@@ -1125,11 +1126,17 @@ __host__ void modelToHost(std::vector<Field>& fields,
                        sizeof(cufftComplex) *
                            fields[f].numVisibilitiesPerFreqPerStoke[i][s],
                        cudaMemcpyDeviceToHost));
-        for (int j = 0; j < fields[f].numVisibilitiesPerFreqPerStoke[i][s];
-             j++) {
-          if (fields[f].visibilities[i][s].uvw[j].x > 0) {
-            fields[f].visibilities[i][s].Vm[j] =
-                cuConjf(fields[f].visibilities[i][s].Vm[j]);
+        
+        // Apply conjugation only if Hermitian symmetry was applied to coordinates
+        // (e.g., via hermitianSymmetry kernel). If degriddingGPU was used, it already
+        // handles Hermitian symmetry internally, so no conjugation needed here.
+        if (apply_hermitian_conjugation) {
+          for (int j = 0; j < fields[f].numVisibilitiesPerFreqPerStoke[i][s];
+               j++) {
+            if (fields[f].visibilities[i][s].uvw[j].x > 0) {
+              fields[f].visibilities[i][s].Vm[j] =
+                  cuConjf(fields[f].visibilities[i][s].Vm[j]);
+            }
           }
         }
       }