-
Notifications
You must be signed in to change notification settings - Fork 0
Home
SiVeci edited this page May 20, 2026
·
16 revisions
EchoSRT 是一套高效的自动化视频翻译字幕流水线。它以 FFmpeg + faster-whisper + LLM 为核心引擎,提供从视频上传、媒体库扫描到字幕下载的一站式工作流方案。
| 模块 | 能力 | 技术实现 |
|---|---|---|
|
|
从视频中提取 16kHz/mono WAV,支持音轨选择与时间段裁剪 | FFmpeg (-map, -ss, -to) |
|
|
本地 faster-whisper + 云端 OpenAI 兼容 API。支持 25MB+ 物理切片、说话人识别与词级时间戳 |
whisper_engine.py / api_transcribe.py
|
|
|
LLM 异步并发 API 翻译 + 基于 GGUF 的本地离线翻译。支持 GPU 显存互斥调度 |
translate.py / local_llm_manager.py
|
|
|
WebSocket 全双工通信与状态同步,流式传输进度可视化 | ws_manager.py |
|
|
基于 Docker Compose 的标准化部署,支持 CUDA/NVIDIA GPU 加速 |
docker-compose.yml + Dockerfile.gpu
|
| 架构层 | 技术选型 |
|---|---|
| 前端 | Vue 3 + Element Plus |
| 后端 | FastAPI (Python 3.9 - 3.13) + asyncio |
| 引擎 | FFmpeg + faster-whisper + llama-cpp-python (GGUF) + OpenAI SDK |
| 通信 | REST API + WebSocket |
| 部署 | Docker / Docker Compose + NVIDIA Container Toolkit |
- 个人创作者:为 YouTube/Bilibili 视频制作高质量双语字幕
- 字幕组:批量处理剧集,自动化提取→识别→翻译全流程
- 研究者:语音识别模型评测、翻译质量对比
- NAS 用户:通过 Docker 部署在群晖/Unraid/TrueNAS 上 7×24 运行
| 章节 | 说明 |
|---|---|
| 入门指南 | 安装、快速上手、配置详解 |
| 用户指南 | 工作区管理、音频提取、语音识别、翻译、下载 |
| 架构设计 | 架构全景、流水线调度、WebSocket 通信、状态管理 |
| API 参考 | REST API 端点文档、WebSocket 消息格式 |
| 部署运维 | Docker 部署、GPU 配置、NAS 指南、代理方案 |
| 开发贡献 | 项目结构、贡献指南、更新日志 |
# 1. 克隆仓库
git clone https://github.com/SiVeci/EchoSRT.git
cd EchoSRT
# 2. Docker Compose 一键启动
docker compose up -d echosrt-cpu
# 3. 访问 Web UI
open http://localhost:8000详细步骤请参阅 快速上手。