release useless inferreq

xipingyan · xipingyan · commit 5ceda8e32105 · 2026-03-24T16:36:44.000+08:00
Signed-off-by: xipingya &lt;xiping.yan@intel.com&gt;
diff --git a/src/cpp/src/module_genai/modules/md_text_to_speech/models/qwen3_omni.cpp b/src/cpp/src/module_genai/modules/md_text_to_speech/models/qwen3_omni.cpp
@@ -207,6 +207,11 @@ void TextToSpeechImpl_Qwen3Omni::load_code_predictor_models(const ov::AnyMap& tt
         GENAI_INFO("TextToSpeechModule[" + module_desc->name +
                    "]: sample_codec_token_greedy_search is enabled, will use greedy decoding in sample_codec_token");
         merge_code_predictor_ov_models(ar_models, sce_models);
+        if (m_enable_merge_ov_models) {
+            // Release original infer requests to save memory since they won't be used anymore.
+            m_code_predictor_ar_infers.clear();
+            m_code_predictor_single_codec_embed_infers.clear();
+        }
     }
 }
 

Original file line number	Diff line number	Diff line change
`@@ -207,6 +207,11 @@ void TextToSpeechImpl_Qwen3Omni::load_code_predictor_models(const ov::AnyMap& tt`
`207`	`207`	`GENAI_INFO("TextToSpeechModule[" + module_desc->name +`
`208`	`208`	`"]: sample_codec_token_greedy_search is enabled, will use greedy decoding in sample_codec_token");`
`209`	`209`	`merge_code_predictor_ov_models(ar_models, sce_models);`
	`210`	`+ if (m_enable_merge_ov_models) {`
	`211`	`+ // Release original infer requests to save memory since they won't be used anymore.`
	`212`	`+ m_code_predictor_ar_infers.clear();`
	`213`	`+ m_code_predictor_single_codec_embed_infers.clear();`
	`214`	`+ }`
`210`	`215`	`}`
`211`	`216`	`}`
`212`	`217`