Home

EchoSRT — 字幕工作台 (v1.3.0)

EchoSRT 是一套高效的自动化视频翻译字幕流水线。它以 FFmpeg + faster-whisper + LLM 为核心引擎，提供从视频上传、媒体库扫描到字幕下载的一站式工作流方案。

核心功能

模块	能力	技术实现
音频提取	从视频中提取 16kHz/mono WAV，支持音轨选择与时间段裁剪	FFmpeg (`-map`, `-ss`, `-to`)
语音识别	本地 faster-whisper + 云端 OpenAI 兼容 API。支持 25MB+ 物理切片、说话人识别与词级时间戳	`whisper_engine.py` / `api_transcribe.py`
字幕翻译	LLM 异步并发 API 翻译 + 基于 GGUF 的本地离线翻译。支持 GPU 显存互斥调度	`translate.py` / `local_llm_manager.py`
实时监控	WebSocket 全双工通信与状态同步，流式传输进度可视化	`ws_manager.py`
一键部署	基于 Docker Compose 的标准化部署，支持 CUDA/NVIDIA GPU 加速	`docker-compose.yml` + `Dockerfile.gpu`

技术栈一览

架构层	技术选型
前端	Vue 3 + Element Plus
后端	FastAPI (Python 3.9 - 3.13) + asyncio
引擎	FFmpeg + faster-whisper + llama-cpp-python (GGUF) + OpenAI SDK
通信	REST API + WebSocket
部署	Docker / Docker Compose + NVIDIA Container Toolkit

适用场景

个人创作者：为 YouTube/Bilibili 视频制作高质量双语字幕
字幕组：批量处理剧集，自动化提取→识别→翻译全流程
研究者：语音识别模型评测、翻译质量对比
NAS 用户：通过 Docker 部署在群晖/Unraid/TrueNAS 上 7×24 运行

文档导航

章节	说明
入门指南	安装、快速上手、配置详解
用户指南	工作区管理、音频提取、语音识别、翻译、下载
架构设计	架构全景、流水线调度、WebSocket 通信、状态管理
API 参考	REST API 端点文档、WebSocket 消息格式
部署运维	Docker 部署、GPU 配置、NAS 指南、代理方案
开发贡献	项目结构、贡献指南、更新日志

快速开始

# 1. 克隆仓库
git clone https://github.com/SiVeci/EchoSRT.git
cd EchoSRT

# 2. Docker Compose 一键启动
docker compose up -d echosrt-cpu

# 3. 访问 Web UI
open http://localhost:8000

详细步骤请参阅快速上手。

EchoSRT 文档

快速入门
用户指南
- 音频提取
- 任务工作区
- 语音识别
  - 本地 Whisper 识别
  - 云端 API 语音识别
- LLM 翻译
  - 云端 API 翻译
  - 本地 LLM 翻译
- 媒体库扫描
- 结果下载与文件管理
系统架构
API 参考
部署指南
开发手册

EchoSRT on GitHub

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Home

EchoSRT — 字幕工作台 (v1.3.0)

核心功能

技术栈一览

适用场景

文档导航

快速开始

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

EchoSRT 文档

Clone this wiki locally