[src] FIX: Error control of CUDA allocations in Reallocate method. (#4305)

kvishnivetsky · Konstantin S. Vishnivetsky · web-flow · commit 997200000a63 · 2020-10-29T20:45:31.000+08:00
FIX: Pointers initialization and deinitialization.
FIX: Minor logical errors with variables.

Summary: Prevents Segmentation Fault uncontrolled termination on NVIDIA Tela T4 multi-cards hardware configuration.

Co-authored-by: Konstantin S. Vishnivetsky &lt;konstantin@sancom.lv&gt;
diff --git a/src/cudadecoder/batched-threaded-nnet3-cuda-pipeline2.cc b/src/cudadecoder/batched-threaded-nnet3-cuda-pipeline2.cc
@@ -205,23 +205,26 @@ void BatchedThreadedNnet3CudaPipeline2::ComputeOfflineFeatures() {
 
     cudaEventSynchronize(wave_buffer_->evt);
     if (nsamp > wave_buffer_->size) {
-      wave_buffer_->Reallocate(nsamp);
+	wave_buffer_->Reallocate(nsamp);
     }
-    std::memcpy(wave_buffer_->h_data, h_wave.Data(),
-                h_wave.Dim() * sizeof(BaseFloat));
-    cudaMemcpyAsync(wave_buffer_->d_data, wave_buffer_->h_data,
-                    sizeof(BaseFloat) * nsamp, cudaMemcpyHostToDevice,
-                    cudaStreamPerThread);
+
+    std::memcpy(wave_buffer_->h_data, h_wave.Data(), nsamp * sizeof(BaseFloat));
+    cudaMemcpyAsync(wave_buffer_->d_data, wave_buffer_->h_data, nsamp * sizeof(BaseFloat), cudaMemcpyHostToDevice, cudaStreamPerThread);
 
     task.d_features.reset(new CuMatrix<BaseFloat>());
     task.d_ivectors.reset(new CuVector<BaseFloat>());
+
     CuSubVector<BaseFloat> wrapper(wave_buffer_->d_data, nsamp);
-    cuda_features_->ComputeFeatures(
-        wrapper, cuda_online_pipeline_.GetModelFrequency(),
-        task.d_features.get(), task.d_ivectors.get());
+
+    cuda_features_->ComputeFeatures(wrapper, cuda_online_pipeline_.GetModelFrequency(), task.d_features.get(), task.d_ivectors.get());
+
     cudaEventRecord(wave_buffer_->evt, cudaStreamPerThread);
+
     std::swap(wave_buffer_, next_wave_buffer_);
-    if (task.wave_data) task.wave_data.reset();  // delete wave samples on host
+
+    if (task.wave_data)
+	task.wave_data.reset();  // delete wave samples on host
+
     {
       std::lock_guard<std::mutex> lk(outstanding_utt_m_);
       outstanding_utt_.push(std::move(task));
diff --git a/src/cudadecoder/batched-threaded-nnet3-cuda-pipeline2.h b/src/cudadecoder/batched-threaded-nnet3-cuda-pipeline2.h
@@ -138,29 +138,41 @@ class BatchedThreadedNnet3CudaPipeline2 {
     BaseFloat *d_data;
     size_t size;
 
-    HostDeviceVector()
+    HostDeviceVector(const size_t new_size = KALDI_CUDA_DECODER_AUDIO_HOST_DEVICE_BUFFER_SIZE)
         : h_data(NULL),
           d_data(NULL),
-          size(KALDI_CUDA_DECODER_AUDIO_HOST_DEVICE_BUFFER_SIZE) {
+          size(new_size) {
       cudaEventCreate(&evt);
-      Reallocate(size);
+      Reallocate(new_size);
     }
 
     virtual ~HostDeviceVector() {
       Deallocate();
       cudaEventDestroy(evt);
     }
 
-    void Reallocate(size_t new_size) {
-      KALDI_ASSERT(new_size > 0);
-      Deallocate();
-      cudaMalloc(&d_data, new_size * sizeof(*d_data));
-      cudaMallocHost(&h_data, new_size * sizeof(*d_data));
-      new_size = size;
+    void Reallocate(const size_t new_size) {
+	KALDI_ASSERT(new_size > 0);
+	Deallocate();
+
+	cudaError_t cuResult = cudaSuccess;
+	cuResult = cudaMalloc(&d_data, new_size * sizeof(BaseFloat));
+	if (cuResult != cudaSuccess) {
+	    KALDI_ERR << "cudaMalloc() failed with error: " << cudaGetErrorString(cuResult);
+	}
+	KALDI_ASSERT(d_data != NULL);
+
+	cuResult = cudaMallocHost(&h_data, new_size * sizeof(BaseFloat));
+	if (cuResult != cudaSuccess) {
+	    KALDI_ERR << "cudaMallocHost() failed with error: " << cudaGetErrorString(cuResult);
+	}
+	KALDI_ASSERT(h_data != NULL);
+
+	size = new_size;
     }
     void Deallocate() {
-      if (d_data) cudaFree(d_data);
-      if (h_data) cudaFreeHost(h_data);
+      if (d_data) {cudaFree(d_data); d_data = NULL; }
+      if (h_data) {cudaFreeHost(h_data); h_data = NULL; }
     }
   };
 
@@ -245,7 +257,7 @@ class BatchedThreadedNnet3CudaPipeline2 {
   void WaitForAllTasks();
 
   // Used for debug
-  void SetSymbolTable(const fst::SymbolTable &word_syms) {
+  void SetSymbolTable(fst::SymbolTable *word_syms) {
     cuda_online_pipeline_.SetSymbolTable(word_syms);
   }