Merge pull request #205 from McVyp/fix-whisper-sampling-rate-doc

Deep-unlearning · web-flow · commit b5a2f2893d05 · 2025-10-13T14:58:52.000+02:00
Add audio resampling to fix Whisper sampling rate mismatch
diff --git a/chapters/en/chapter1/preprocessing.mdx b/chapters/en/chapter1/preprocessing.mdx
@@ -152,6 +152,13 @@ Next, you can write a function to pre-process a single audio example by passing
 ```py
 def prepare_dataset(example):
     audio = example["audio"]
+
+    if audio["sampling_rate"] != 16000:
+        audio_array = librosa.resample(
+            audio["array"], orig_sr=audio["sampling_rate"], target_sr=16000
+        )
+        audio = {"array": audio_array, "sampling_rate": 16000}
+
     features = feature_extractor(
         audio["array"], sampling_rate=audio["sampling_rate"], padding=True
     )