-
-
Notifications
You must be signed in to change notification settings - Fork 0
Voice
bobberdolle1 edited this page Jan 6, 2026
·
1 revision
PersonaForge умеет распознавать голосовые сообщения через Whisper API.
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Голосовое │ ──▶ │ Whisper │ ──▶ │ Текст │
└─────────────┘ └─────────────┘ └─────────────┘
│
▼
┌─────────────┐
│ Обработка │
│ как текст │
└─────────────┘
- Пользователь отправляет голосовое сообщение
- Бот скачивает аудио из Telegram
- Отправляет в Whisper API для транскрипции
- Полученный текст обрабатывается как обычное сообщение
- Ответ генерируется через активную персону
# Клонируй whisper.cpp
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
# Собери
make
# Скачай модель
./models/download-ggml-model.sh base
# Запусти сервер
./server -m models/ggml-base.bin --port 8080pip install faster-whisper
# Запусти с API
faster-whisper-server --model base --port 8080Если используешь OpenAI API, укажи их endpoint.
# Включить голос
VOICE_ENABLED=true
# URL Whisper API
WHISPER_URL=http://localhost:8080/inference- ✅ Голосовые сообщения Telegram (.ogg)
- ✅ Аудиофайлы (.mp3, .wav, .m4a)
- ✅ Видеосообщения (кружки) — извлекается аудио
Для видеосообщений бот делает двойную обработку:
- Аудио → Whisper → транскрипция
- Видео → Vision → описание
Оба результата объединяются для полного понимания контекста.
Whisper автоматически определяет язык. Поддерживаются:
- 🇷🇺 Русский
- 🇬🇧 Английский
- 🇩🇪 Немецкий
- 🇫🇷 Французский
- И 90+ других языков
- Проверь
VOICE_ENABLED=trueв.env - Проверь что Whisper запущен:
curl http://localhost:8080/inference -F "file=@test.ogg" - Проверь логи бота
- Используй модель побольше (
mediumилиlarge) - Проверь качество микрофона
- Говори чётче и без фонового шума
- Модель
base— быстрая, но менее точная - Модель
large— точная, но медленная - Для баланса используй
medium
➡️ Далее: Vision
GitHub · Issues · Discussions