v0.0.1 - GLM-ASR-WebUI 初始版本

wujunwei928 released this 18 Jan 07:12

· 28 commits to main since this release

f5e63ca

🎉 GLM-ASR-WebUI v0.0.1

这是 GLM-ASR-WebUI 的首个正式发布版本！

✨ 主要特性

🎯 高精度识别: 采用 GLM-ASR-Nano-2512 模型，提供领先的语音识别能力
🚀 流式 API: 长音频实时转录进度反馈
🎨 赛博朋克 UI: 霓虹风格界面，配合动态粒子效果
🎙️ 多种输入方式: 文件上传、URL 下载、实时录音
📦 自动分块: 长音频自动分割处理（默认 30 秒/块）
⚡ GPU 加速: 支持 CUDA 推理加速

🛠️ 安装

前置要求

Python 3.12+
FFmpeg（用于音频时长检测和长音频分割）
CUDA GPU（可选，用于加速）

快速开始

```bash

克隆仓库

git clone https://github.com/wujunwei928/GLM-ASR-WebUI.git
cd GLM-ASR-WebUI

安装依赖

pip install -r requirements.txt

启动服务

uvicorn app:app --host 0.0.0.0 --port 8000
```

📡 API 端点

端点	方法	描述
`/`	GET	Web 界面
`/health`	GET	健康检查
`/api/v1/transcribe`	POST	标准转录
`/api/v1/transcribe-stream`	POST	流式转录（推荐）
`/api/v1/model/info`	GET	模型信息
`/docs`	GET	API 文档

🔗 链接

📄 许可证

Apache License 2.0

Assets 2