增加了asr时的递归搜索和对funasr的支持 (#21)

clumsyroot · pre-commit-ci[bot] · web-flow · commit 4c2acf11def1 · 2024-05-24T23:13:40.000-07:00
* add support for recursive search * add funasr support * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
diff --git a/fish_audio_preprocess/cli/transcribe.py b/fish_audio_preprocess/cli/transcribe.py
@@ -32,12 +32,23 @@ def replace_lastest(string, old, new):
 )
 @click.option(
     "--model-size",
-    help="whisper model size",
+    help="whisper model size or funasr",
     default="tiny",
     show_default=True,
     type=str,
 )
-def transcribe(input_dir, num_workers, lang, model_size):
+@click.option(
+    "--recursive/--no-recursive",
+    default=False,
+    help="Search recursively",
+)
+def transcribe(
+    input_dir: str,
+    num_workers: int,
+    lang: str,
+    model_size: str,
+    recursive: bool,
+):
     """
     Transcribe audio files in a directory.
     """
@@ -49,7 +60,7 @@ def transcribe(input_dir, num_workers, lang, model_size):
 
     logger.info(f"Transcribing audio files in {input_dir}")
     # 扫描出所有的音频文件
-    audio_files = list_files(input_dir)
+    audio_files = list_files(input_dir, recursive=recursive)
     audio_files = [str(file) for file in audio_files if file.suffix in AUDIO_EXTENSIONS]
 
     if len(audio_files) == 0:
diff --git a/fish_audio_preprocess/utils/transcribe.py b/fish_audio_preprocess/utils/transcribe.py
@@ -10,14 +10,30 @@
 
 
 def batch_transcribe(files: list[Path], model_size: str, lang: str, pos: int):
-    import whisper
-
-    model = whisper.load_model(model_size)
     results = {}
-    for file in tqdm(files, position=pos):
-        if lang in PROMPT:
-            result = model.transcribe(file, language=lang, initial_prompt=PROMPT[lang])
-        else:
-            result = model.transcribe(file, language=lang)
-        results[str(file)] = result["text"]
+    if "funasr" not in model_size:
+        import whisper
+
+        model = whisper.load_model(model_size)
+        for file in tqdm(files, position=pos):
+            if lang in PROMPT:
+                result = model.transcribe(
+                    file, language=lang, initial_prompt=PROMPT[lang]
+                )
+            else:
+                result = model.transcribe(file, language=lang)
+            results[str(file)] = result["text"]
+    else:
+        from funasr import AutoModel
+
+        model = AutoModel(
+            model="paraformer-zh",
+            punc_model="ct-punc",
+            log_level="ERROR",
+            disable_pbar=True,
+        )
+        for file in tqdm(files, position=pos):
+            result = model.generate(input=file, batch_size_s=300)
+            results[str(file)] = result[0]["text"]
+
     return results