Minor refactoring of separator parameters (#132)

ntamotsu · beveradb · web-flow · commit 0f585ab1f324 · 2024-11-02T17:20:30.000-05:00
- Organize default values - Clarify handling of `batch_size` for RoFormer models (ref: #118) Co-authored-by: Andrew Beveridge ☄️ <andrew@beveridge.uk>
diff --git a/README.md b/README.md
@@ -317,9 +317,10 @@ output_file_paths_6 = separator.separate('audio3.wav')
 - sample_rate: (Optional) Set the sample rate of the output audio. Default: 44100
 - use_soundfile: (Optional) Use soundfile for output writing, can solve OOM issues, especially on longer audio. 
 - use_autocast: (Optional) Flag to use PyTorch autocast for faster inference.　Do not use for CPU inference. Default: False
-- mdx_params: (Optional) MDX Architecture Specific Attributes & Defaults. Default: {"hop_length": 1024, "segment_size": 256, "overlap": 0.25, "batch_size": 1}
+- mdx_params: (Optional) MDX Architecture Specific Attributes & Defaults. Default: {"hop_length": 1024, "segment_size": 256, "overlap": 0.25, "batch_size": 1, "enable_denoise": False}
 - vr_params: (Optional) VR Architecture Specific Attributes & Defaults. Default: {"batch_size": 1, "window_size": 512, "aggression": 5, "enable_tta": False, "enable_post_process": False, "post_process_threshold": 0.2, "high_end_process": False}
-- demucs_params: (Optional) VR Architecture Specific Attributes & Defaults. {"segment_size": "Default", "shifts": 2, "overlap": 0.25, "segments_enabled": True}
+- demucs_params: (Optional) Demucs Architecture Specific Attributes & Defaults. {"segment_size": "Default", "shifts": 2, "overlap": 0.25, "segments_enabled": True}
+- mdxc_params: (Optional) MDXC Architecture Specific Attributes & Defaults. Default: {"segment_size": 256, "override_model_segment_size": False, "batch_size": 1, "overlap": 8, "pitch_shift": 0}
 
 ## Requirements 📋
 
diff --git a/audio_separator/separator/architectures/mdxc_separator.py b/audio_separator/separator/architectures/mdxc_separator.py
@@ -211,6 +211,8 @@ def demix(self, mix: np.ndarray) -> dict:
             mix, sample_rate = spec_utils.change_pitch_semitones(mix, self.sample_rate, semitone_shift=-self.pitch_shift)
 
         if self.is_roformer:
+            # Note: Currently, for Roformer models, `batch_size` is not utilized due to negligible performance improvements.
+
             mix = torch.tensor(mix, dtype=torch.float32)
 
             if self.override_model_segment_size:
diff --git a/audio_separator/separator/separator.py b/audio_separator/separator/separator.py
@@ -63,7 +63,17 @@ class Separator:
         high_end_process: False
 
     Demucs Architecture Specific Attributes & Defaults:
-        model_path: The path to the Demucs model file.
+        segment_size: "Default"
+        shifts: 2
+        overlap: 0.25
+        segments_enabled: True
+        
+    MDXC Architecture Specific Attributes & Defaults:
+        segment_size: 256
+        override_model_segment_size: False
+        batch_size: 1
+        overlap: 8
+        pitch_shift: 0
     """
 
     def __init__(
@@ -84,7 +94,7 @@ def __init__(
         mdx_params={"hop_length": 1024, "segment_size": 256, "overlap": 0.25, "batch_size": 1, "enable_denoise": False},
         vr_params={"batch_size": 1, "window_size": 512, "aggression": 5, "enable_tta": False, "enable_post_process": False, "post_process_threshold": 0.2, "high_end_process": False},
         demucs_params={"segment_size": "Default", "shifts": 2, "overlap": 0.25, "segments_enabled": True},
-        mdxc_params={"segment_size": 256, "batch_size": 1, "overlap": 8},
+        mdxc_params={"segment_size": 256, "override_model_segment_size": False, "batch_size": 1, "overlap": 8, "pitch_shift": 0},
     ):
         self.logger = logging.getLogger(__name__)
         self.logger.setLevel(log_level)