New PodcastStudio class methods and fixed notebook example

leopiney · leopiney · commit f75e8f8c9fa2 · 2024-11-06T22:58:29.000-03:00
diff --git a/examples/01_basics_notebook.ipynb b/examples/01_basics_notebook.ipynb
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "neuralnoise"
-version = "1.3.2"
+version = "1.4.0"
 description = "An AI-powered podcast studio that uses multiple AI agents working together."
 authors = [
     { name = "Leonardo Piñeyro", email = "leopiney@gmail.com" }
@@ -58,6 +58,9 @@ local = [
     "docker>=7.1.0",
     "ollama>=0.3.3",
 ]
+streamlit = [
+    "streamlit>=1.39.0",
+]
 
 [build-system]
 requires = ["hatchling"]
diff --git a/src/neuralnoise/__init__.py b/src/neuralnoise/__init__.py
@@ -1,4 +1,9 @@
-from neuralnoise.extract import extract_content, aextract_content
-from neuralnoise.studio import create_podcast_episode
+from neuralnoise.extract import aextract_content, extract_content
+from neuralnoise.studio import PodcastStudio, generate_podcast_episode
 
-__all__ = ["create_podcast_episode", "extract_content", "aextract_content"]
+__all__ = [
+    "aextract_content",
+    "extract_content",
+    "generate_podcast_episode",
+    "PodcastStudio",
+]
diff --git a/src/neuralnoise/cli.py b/src/neuralnoise/cli.py
@@ -9,7 +9,7 @@
 from tabulate import tabulate
 
 from neuralnoise.extract import extract_content
-from neuralnoise.studio import create_podcast_episode
+from neuralnoise.studio import generate_podcast_episode
 from neuralnoise.utils import package_root
 
 app = typer.Typer()
@@ -65,7 +65,7 @@ def generate(
             f.write(content)
 
     typer.secho(f"Generating podcast episode {name}", fg=typer.colors.GREEN)
-    create_podcast_episode(
+    generate_podcast_episode(
         name,
         content,
         config_path=config,
diff --git a/src/neuralnoise/studio/__init__.py b/src/neuralnoise/studio/__init__.py
@@ -1,2 +1,2 @@
 from neuralnoise.studio.agents import PodcastStudio  # noqa
-from neuralnoise.studio.create import create_podcast_episode  # noqa
+from neuralnoise.studio.generate import generate_podcast_episode  # noqa
diff --git a/src/neuralnoise/studio/agents.py b/src/neuralnoise/studio/agents.py
@@ -1,3 +1,4 @@
+import hashlib
 import json
 import os
 from pathlib import Path
@@ -11,12 +12,16 @@
     GroupChatManager,
     UserProxyAgent,
 )
+from pydub import AudioSegment
+from pydub.effects import normalize
+from tqdm.auto import tqdm
 
+from neuralnoise.models import StudioConfig
 from neuralnoise.studio.hooks import (
     optimize_chat_history_hook,
     save_last_json_message_hook,
 )
-from neuralnoise.models import StudioConfig
+from neuralnoise.tts import generate_audio_segment
 from neuralnoise.utils import package_root
 
 
@@ -184,3 +189,49 @@ def is_termination_msg(message):
         }
 
         return final_script
+
+    def generate_podcast_from_script(self, script: dict[str, Any]) -> AudioSegment:
+        script_segments = []
+
+        temp_dir = self.work_dir / "segments"
+        temp_dir.mkdir(exist_ok=True)
+
+        sections_ids = list(sorted(script["sections"].keys()))
+        script_segments = [
+            (section_id, segment)
+            for section_id in sections_ids
+            for segment in script["sections"][section_id]["segments"]
+        ]
+
+        audio_segments = []
+
+        for section_id, segment in tqdm(
+            script_segments,
+            desc="Generating audio segments",
+        ):
+            speaker = self.config.speakers[segment["speaker"]]
+            content = segment["content"]
+
+            content = content.replace("¡", "").replace("¿", "")
+
+            content_hash = hashlib.md5(content.encode("utf-8")).hexdigest()
+            segment_path = temp_dir / f"{section_id}_{segment['id']}_{content_hash}.mp3"
+
+            audio_segment = generate_audio_segment(
+                content, speaker, output_path=segment_path
+            )
+
+            audio_segments.append(audio_segment)
+
+            if blank_duration := segment.get("blank_duration"):
+                silence = AudioSegment.silent(duration=blank_duration * 1000)
+                audio_segments.append(silence)
+
+        podcast = AudioSegment.empty()
+
+        for chunk in audio_segments:
+            podcast += chunk
+
+        podcast = normalize(podcast)
+
+        return podcast
diff --git a/src/neuralnoise/studio/create.py b/src/neuralnoise/studio/create.py
diff --git a/src/neuralnoise/studio/generate.py b/src/neuralnoise/studio/generate.py
@@ -0,0 +1,73 @@
+import json
+import logging
+from pathlib import Path
+from typing import Literal
+
+from pydub import AudioSegment
+
+from neuralnoise.models import StudioConfig
+from neuralnoise.studio import PodcastStudio
+
+logger = logging.getLogger(__name__)
+
+
+def generate_podcast_episode(
+    name: str,
+    content: str,
+    config: StudioConfig | None = None,
+    config_path: str | Path | None = None,
+    format: Literal["wav", "mp3", "ogg"] = "wav",
+    only_script: bool = False,
+) -> AudioSegment | None:
+    """Generate a podcast episode from a given content.
+
+    Args:
+        name: Name of the podcast episode.
+        content: Content to generate the podcast episode from.
+        config: Studio configuration (optional).
+        config_path: Path to the studio configuration file (optional).
+        format: Format of the podcast episode.
+        only_script: Whether to only generate the script and not the podcast.
+    """
+    # Create output directory
+    output_dir = Path("output") / name
+    output_dir.mkdir(parents=True, exist_ok=True)
+
+    # Load configuration
+    if config_path:
+        logger.info("🔧  Loading configuration from %s", config_path)
+        with open(config_path, "r") as f:
+            config = StudioConfig.model_validate_json(f.read())
+
+    if not config:
+        raise ValueError("No studio configuration provided")
+
+    studio = PodcastStudio(work_dir=output_dir, config=config)
+
+    # Generate the script
+    script_path = output_dir / "script.json"
+
+    if script_path.exists():
+        logger.info("💬  Loading cached script")
+        script = json.loads(script_path.read_text())
+    else:
+        logger.info("💬  Generating podcast script")
+        script = studio.generate_script(content)
+
+        script_path.write_text(json.dumps(script, ensure_ascii=False))
+
+    if only_script:
+        return None
+
+    # Generate audio segments and create the podcast
+    logger.info("🎙️  Recording podcast episode")
+    podcast = studio.generate_podcast_from_script(script)
+
+    # Export podcast
+    podcast_filepath = output_dir / f"output.{format}"
+    logger.info("️💾  Exporting podcast to %s", podcast_filepath)
+    podcast.export(podcast_filepath, format=format)
+
+    logger.info("✅  Podcast generation complete")
+
+    return podcast
diff --git a/src/neuralnoise/tts.py b/src/neuralnoise/tts.py
@@ -76,7 +76,6 @@ def generate_audio_segment(
     overwrite: bool = False,
 ) -> AudioSegment:
     if not output_path.exists() or overwrite:
-        print(f"Generating {output_path} with content: {content[:80]}...")
         tts_function = TTS_PROVIDERS[speaker.settings.provider]
         audio = tts_function(content, speaker)
 
diff --git a/uv.lock b/uv.lock

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`from neuralnoise.studio.agents import PodcastStudio # noqa`
`2`		`-from neuralnoise.studio.create import create_podcast_episode # noqa`
	`2`	`+from neuralnoise.studio.generate import generate_podcast_episode # noqa`