Introducción al proyecto (¡Experimenta la versión en línea ahora!)
Klic Studio es una solución integral de localización y mejora de audio y video desarrollada por Krillin AI. Esta herramienta minimalista y poderosa combina traducción de audio y video, doblaje y clonación de voz, soportando formatos de pantalla horizontal y vertical, asegurando una presentación perfecta en todas las plataformas principales (Bilibili, Xiaohongshu, Douyin, WeChat Video, Kuaishou, YouTube, TikTok, etc.). A través de un flujo de trabajo de extremo a extremo, puedes transformar el material original en contenido multiplataforma listo para usar con solo unos pocos clics.
🎯 Inicio con un clic: Sin configuraciones de entorno complicadas, instalación automática de dependencias, ¡listo para usar de inmediato! Nueva versión de escritorio para mayor comodidad.
📥 Obtención de video: Soporta descarga con yt-dlp o carga de archivos locales.
📜 Reconocimiento preciso: Reconocimiento de voz de alta precisión basado en Whisper.
🧠 Segmentación inteligente: Uso de LLM para segmentación y alineación de subtítulos.
🔄 Reemplazo de términos: Reemplazo de vocabulario especializado con un clic.
🌍 Traducción profesional: Traducción LLM con contexto para mantener la naturalidad semántica.
🎙️ Clonación de voz: Ofrece tonos seleccionados de CosyVoice o clonación de tonos personalizados.
🎬 Composición de video: Procesamiento automático de videos en formato horizontal y vertical y maquetación de subtítulos.
💻 Multiplataforma: Soporta Windows, Linux, macOS, ofreciendo versiones de escritorio y servidor.
La imagen a continuación muestra el efecto de un archivo de subtítulos generado tras importar un video local de 46 minutos y ejecutar con un clic, sin ajustes manuales. Sin pérdidas, superposiciones, con pausas naturales y una calidad de traducción muy alta.
subtitle_translation.mp4 |
tts.mp4 |
agi.mp4 |
Todos los modelos locales en la tabla a continuación soportan instalación automática de archivos ejecutables + archivos de modelo, solo necesitas elegir, Klic se encargará del resto.
Fuente de servicio | Plataformas soportadas | Opciones de modelo | Local/Nube | Notas |
---|---|---|---|---|
OpenAI Whisper | Todas las plataformas | - | Nube | Rápido y efectivo |
FasterWhisper | Windows/Linux | tiny /medium /large-v2 (recomendado medium+) |
Local | Más rápido, sin costos de nube |
WhisperKit | macOS (solo para chips M) | large-v2 |
Local | Optimización nativa para chips Apple |
WhisperCpp | Todas las plataformas | large-v2 |
Local | Soporta todas las plataformas |
Aliyun ASR | Todas las plataformas | - | Nube | Evita problemas de red en China continental |
✅ Compatible con todos los servicios de modelos de lenguaje grande en la nube/local que cumplen con las especificaciones de la API de OpenAI, incluyendo pero no limitado a:
- OpenAI
- Gemini
- DeepSeek
- Tongyi Qianwen
- Modelos de código abierto desplegados localmente
- Otros servicios de API compatibles con el formato de OpenAI
- Servicio de voz de Aliyun
- OpenAI TTS
Idiomas de entrada soportados: chino, inglés, japonés, alemán, turco, coreano, ruso, malayo (en constante aumento)
Idiomas de traducción soportados: inglés, chino, ruso, español, francés y otros 101 idiomas.
Primero, descarga el archivo ejecutable que coincida con tu sistema operativo en Release, sigue el tutorial a continuación para elegir entre la versión de escritorio o no de escritorio, y colócalo en una carpeta vacía. Descarga el software en una carpeta vacía, ya que se generarán algunos directorios después de la ejecución, y será más fácil de gestionar en una carpeta vacía.
【Si es la versión de escritorio, es decir, el archivo de release que lleva desktop, mira aquí】
La versión de escritorio es nueva, diseñada para resolver problemas de edición de archivos de configuración para usuarios novatos, y hay algunos errores que se están corrigiendo continuamente.
- Haz doble clic en el archivo para comenzar a usarlo (la versión de escritorio también necesita configuración dentro del software).
【Si es la versión no de escritorio, es decir, el archivo de release que no lleva desktop, mira aquí】
La versión no de escritorio es la versión inicial, con una configuración más compleja, pero funcionalmente estable, adecuada para despliegue en servidores, ya que proporcionará una interfaz de usuario de forma web.
- Crea una carpeta
config
dentro de la carpeta, luego crea un archivoconfig.toml
dentro de la carpetaconfig
, copia el contenido del archivoconfig-example.toml
en el directorio de código fuente enconfig
y completa tu información de configuración de acuerdo con los comentarios. - Haz doble clic o ejecuta el archivo ejecutable en la terminal para iniciar el servicio.
- Abre el navegador e ingresa
http://127.0.0.1:8888
para comenzar a usarlo (reemplaza 8888 con el puerto que hayas ingresado en el archivo de configuración).
【Si es la versión de escritorio, es decir, el archivo de release que lleva desktop, mira aquí】
Actualmente, debido a problemas de firma, la versión de escritorio no puede ejecutarse directamente con un doble clic o instalación de dmg, necesitas confiar manualmente en la aplicación, el método es el siguiente:
- Abre la terminal en el directorio donde se encuentra el archivo ejecutable (supongamos que el nombre del archivo es KlicStudio_1.0.0_desktop_macOS_arm64).
- Ejecuta los siguientes comandos uno por uno:
sudo xattr -cr ./KlicStudio_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KlicStudio_1.0.0_desktop_macOS_arm64
./KlicStudio_1.0.0_desktop_macOS_arm64
【Si es la versión no de escritorio, es decir, el archivo de release que no lleva desktop, mira aquí】
Este software no tiene firma, por lo que al ejecutarlo en macOS, después de completar la configuración de archivos en "Pasos básicos", también necesitas confiar manualmente en la aplicación, el método es el siguiente:
- Abre la terminal en el directorio donde se encuentra el archivo ejecutable (supongamos que el nombre del archivo es KlicStudio_1.0.0_macOS_arm64).
- Ejecuta los siguientes comandos uno por uno:
Esto iniciará el servicio.
sudo xattr -rd com.apple.quarantine ./KlicStudio_1.0.0_macOS_arm64 sudo chmod +x ./KlicStudio_1.0.0_macOS_arm64 ./KlicStudio_1.0.0_macOS_arm64
Este proyecto soporta despliegue con Docker, por favor consulta Instrucciones de despliegue con Docker.
Si encuentras problemas al descargar videos,
por favor consulta Instrucciones de configuración de Cookies para configurar tu información de Cookies.
La forma más rápida y conveniente de configurar:
- Rellena
transcribe.provider.name
conopenai
, así solo necesitas completar el bloquetranscribe.openai
y la configuración del modelo grande en el bloquellm
para realizar la traducción de subtítulos. (app.proxy
,model
yopenai.base_url
son opcionales según tu situación).
Forma de configuración usando un modelo de reconocimiento de voz local (equilibrando costo, velocidad y calidad):
- Rellena
transcribe.provider.name
confasterwhisper
,transcribe.fasterwhisper.model
conlarge-v2
, y luego completa el bloquellm
con la configuración del modelo grande para realizar la traducción de subtítulos, el modelo local se descargará e instalará automáticamente. (app.proxy
yopenai.base_url
son iguales a lo anterior).
La conversión de texto a voz (TTS) es opcional, la lógica de configuración es la misma que la anterior, rellena tts.provider.name
, y luego completa el bloque de configuración correspondiente debajo de tts
, en la interfaz de usuario, los códigos de voz se completan de acuerdo con la documentación del proveedor seleccionado (la dirección de la documentación está en las preguntas frecuentes a continuación). La entrada de ak, sk, etc. de Aliyun puede repetirse, esto es para garantizar que la estructura de configuración sea clara.
Nota: Si usas clonación de voz, tts
solo soporta seleccionar aliyun
.
Para obtener el AccessKey, Bucket y AppKey de Aliyun, por favor lee: Instrucciones de configuración de Aliyun.
Por favor entiende que la tarea = reconocimiento de voz + traducción de modelo grande + servicio de voz (TTS, etc., opcional), esto te ayudará a entender el archivo de configuración.
Por favor visita Preguntas frecuentes.
- No envíes archivos innecesarios, como .vscode, .idea, etc., usa .gitignore para filtrarlos.
- No envíes config.toml, sino usa config-example.toml para enviar.
- Únete a nuestro grupo de QQ para resolver dudas: 754069680.
- Sigue nuestras cuentas en redes sociales, Bilibili, compartimos contenido de calidad en el campo de la tecnología AI todos los días.