VRChatParaformerAsr会读取你的语音,再利用阿里云提供的服务将其转换成文字,最后通过OSC发送给vrchat。
用法:
- 前往Release界面下载
.exe文件- 注意是有两个
.exe文件都要下载:VRChatParaformerAsr_setting.exe和VRChatParaformerAsr.exe - 下载后请确保这两个文件位于同一个目录下
- 注意是有两个
- 如果是第一次启动(,或者需要修改设置的话)需要先运行
VRChatParaformerAsr_setting.exe- 运行后浏览器应该会自动弹出访问
http://127.0.0.1:8080/的网页(没弹出的话就自己开一个网页):
- 修改
Micro Device,选择你使用的麦克风设备 - 在
Dashscope API Key处填入Dashscope的API Key(获取方法见后文) - (可选)如果需要使用翻译功能的话
- 勾选
Enable translation - 选择你的语言
Source Language - 选择你想翻译成什么语言
Destination Language - 在
Alicloud Access Key ID和Alicloud Access Key Secret处填入阿里云的Access Key(获取方法见后文,注意和上面的Dashscope API Key是两回事) Alicloud Endpoint通常不用管
- 勾选
- 点
SAVE,此时在VRChatParaformerAsr_setting.exe的所在目录下应该会生成一个setting.json文件:
- 运行后浏览器应该会自动弹出访问
- 执行
VRChatParaformerAsr.exe,应该会弹出个小黑框,挂在那里就行了 - 记得VRChat里要启用OSC
附带一提两个勾选框的含义分别为:
OSC bypass keyboard:不勾选的话好像会自动打开vrchat里的键盘?没测试过OSC enable SFX:不勾选的话vrchat里头上冒气泡的时候就不会有音效了
遇到什么bug的话请在issues里提出,不过因为该项目只是我为朋友写的,在够用的情况下我并不一定会去修别的bug……
另外,
- 底层调用的模型主要是支持中文普通话,也支持一些英语
- 如果你是别的语种的使用者或者不在国内的话,我推荐你使用VRCT或者vrc stt
- 本仓库的主要特点是底层调用的是阿里云专门为中文实时语音识别训练的模型(paraformer-realtime-v1),因此对中文的支持比较好,而且从国内访问的话网速很快
- 我考虑过要不要给VRCT写个pull request的,但是因为paraformer-realtime-v1是实时语音识别模型,而非whisper那种离线的,两者的接口差太多了,所以没办法我就只好自己重新搓了个轮子
- 打开dashscope控制台(该注册账号就注册账号,可能还得先实名认证): https://dashscope.console.aliyun.com
- 左边侧栏打开
API-KEY管理,然后点创建新的API-KEY:
- 或者参考官方文档来给子账户赋权再创建API Key
- 把弹出来的那串字符串给复制下来保存好,它就是API key,就是你应该填进
Dashscope API Key里的东西
备注:
- 请妥善保管,API key借给别人的话可能会导致欠款
- 阿里云提供了每个月36000秒的免费额度,常规的个人使用应该是够用了
照着官方文档做就可以获得主账户的Access Key了。
子账户赋权可以不管,或者参考这份官方文档来给子账户赋权,使用子账户的access key(好处是key泄露的时候别人也只能使用机器翻译的功能,更安全点)。
备注:
- 请妥善保管,Access Key借给别人的话可能会导致欠款
- 阿里云提供了每个月100万个字符的免费额度,常规的个人使用应该是够用了
- 我调用的是通用版接口,不是专业版的(专业版是指词汇专业,并不是指翻译效果更好)
- 其实有道、讯飞他们都直接提供了
语音->文本+文本翻译的服务,但都好贵的- 例如有道的,20小时204块,一次性免费额度
- 所以最后还是选择分开来白嫖阿里云两个AI平台的服务了
- 也因此会需要在两个地方分别申请Api Key/Access Key,毕竟虽然都是阿里云的,但一个是灵积(语音转文字),一个是灵杰(文本翻译)
- 给
.exe文件创建个快捷方式 - 右键快捷方式,
目标那里在.exe后面加上--port 14512(14512是你想换成的新端口) - 执行这个快捷方式
命令行选项:
--title VRChat Paraformer Asr--host 0.0.0.0--port 8080
环境变量:
STORAGE_KEY:用于存储用户数据的,不指定的话就会根据机器码自动生成一个
- git clone这个库
pip install -r requirements.txtpython main.setting.py:有gui的设置界面python main.cmd.py:纯命令行的运行时界面
安装pyinstaller,然后直接执行package.bat:
nicegui-pack --onefile --name "VRChatParaformerAsr_setting" main.setting.py
pyinstaller --onefile --name "VRChatParaformerAsr" main.cmd.py打包后的文件为dist\VRChatParaformerAsr.exe和dist\VRChatParaformerAsr_setting.exe

