Skip to content

Files

Latest commit

 Cannot retrieve latest commit at this time.

History

History
179 lines (123 loc) · 11.8 KB

README.md

File metadata and controls

179 lines (123 loc) · 11.8 KB
KlicStudio

Herramienta de traducción y doblaje de video AI de despliegue minimalista

KrillinAI%2FKlicStudio | Trendshift

English简体中文日本語한국어Tiếng ViệtFrançaisDeutschEspañolPortuguêsРусскийاللغة العربية

Twitter QQ 群 Bilibili

Introducción al proyecto (¡Experimenta la versión en línea ahora!)

Klic Studio es una solución integral de localización y mejora de audio y video desarrollada por Krillin AI. Esta herramienta minimalista y poderosa combina traducción de audio y video, doblaje y clonación de voz, soportando formatos de pantalla horizontal y vertical, asegurando una presentación perfecta en todas las plataformas principales (Bilibili, Xiaohongshu, Douyin, WeChat Video, Kuaishou, YouTube, TikTok, etc.). A través de un flujo de trabajo de extremo a extremo, puedes transformar el material original en contenido multiplataforma listo para usar con solo unos pocos clics.

Características y funciones principales:

🎯 Inicio con un clic: Sin configuraciones de entorno complicadas, instalación automática de dependencias, ¡listo para usar de inmediato! Nueva versión de escritorio para mayor comodidad.

📥 Obtención de video: Soporta descarga con yt-dlp o carga de archivos locales.

📜 Reconocimiento preciso: Reconocimiento de voz de alta precisión basado en Whisper.

🧠 Segmentación inteligente: Uso de LLM para segmentación y alineación de subtítulos.

🔄 Reemplazo de términos: Reemplazo de vocabulario especializado con un clic.

🌍 Traducción profesional: Traducción LLM con contexto para mantener la naturalidad semántica.

🎙️ Clonación de voz: Ofrece tonos seleccionados de CosyVoice o clonación de tonos personalizados.

🎬 Composición de video: Procesamiento automático de videos en formato horizontal y vertical y maquetación de subtítulos.

💻 Multiplataforma: Soporta Windows, Linux, macOS, ofreciendo versiones de escritorio y servidor.

Ejemplo de resultados

La imagen a continuación muestra el efecto de un archivo de subtítulos generado tras importar un video local de 46 minutos y ejecutar con un clic, sin ajustes manuales. Sin pérdidas, superposiciones, con pausas naturales y una calidad de traducción muy alta. Efecto de alineación

Traducción de subtítulos


subtitle_translation.mp4

Doblaje


tts.mp4

Pantalla vertical


agi.mp4

🔍 Soporte para servicios de reconocimiento de voz

Todos los modelos locales en la tabla a continuación soportan instalación automática de archivos ejecutables + archivos de modelo, solo necesitas elegir, Klic se encargará del resto.

Fuente de servicio Plataformas soportadas Opciones de modelo Local/Nube Notas
OpenAI Whisper Todas las plataformas - Nube Rápido y efectivo
FasterWhisper Windows/Linux tiny/medium/large-v2 (recomendado medium+) Local Más rápido, sin costos de nube
WhisperKit macOS (solo para chips M) large-v2 Local Optimización nativa para chips Apple
WhisperCpp Todas las plataformas large-v2 Local Soporta todas las plataformas
Aliyun ASR Todas las plataformas - Nube Evita problemas de red en China continental

🚀 Soporte para modelos de lenguaje grande

✅ Compatible con todos los servicios de modelos de lenguaje grande en la nube/local que cumplen con las especificaciones de la API de OpenAI, incluyendo pero no limitado a:

  • OpenAI
  • Gemini
  • DeepSeek
  • Tongyi Qianwen
  • Modelos de código abierto desplegados localmente
  • Otros servicios de API compatibles con el formato de OpenAI

🎤 Soporte para TTS (texto a voz)

  • Servicio de voz de Aliyun
  • OpenAI TTS

Soporte de idiomas

Idiomas de entrada soportados: chino, inglés, japonés, alemán, turco, coreano, ruso, malayo (en constante aumento)

Idiomas de traducción soportados: inglés, chino, ruso, español, francés y otros 101 idiomas.

Vista previa de la interfaz

Vista previa de la interfaz

🚀 Comenzar rápidamente

Pasos básicos

Primero, descarga el archivo ejecutable que coincida con tu sistema operativo en Release, sigue el tutorial a continuación para elegir entre la versión de escritorio o no de escritorio, y colócalo en una carpeta vacía. Descarga el software en una carpeta vacía, ya que se generarán algunos directorios después de la ejecución, y será más fácil de gestionar en una carpeta vacía.

【Si es la versión de escritorio, es decir, el archivo de release que lleva desktop, mira aquí】
La versión de escritorio es nueva, diseñada para resolver problemas de edición de archivos de configuración para usuarios novatos, y hay algunos errores que se están corrigiendo continuamente.

  1. Haz doble clic en el archivo para comenzar a usarlo (la versión de escritorio también necesita configuración dentro del software).

【Si es la versión no de escritorio, es decir, el archivo de release que no lleva desktop, mira aquí】
La versión no de escritorio es la versión inicial, con una configuración más compleja, pero funcionalmente estable, adecuada para despliegue en servidores, ya que proporcionará una interfaz de usuario de forma web.

  1. Crea una carpeta config dentro de la carpeta, luego crea un archivo config.toml dentro de la carpeta config, copia el contenido del archivo config-example.toml en el directorio de código fuente en config y completa tu información de configuración de acuerdo con los comentarios.
  2. Haz doble clic o ejecuta el archivo ejecutable en la terminal para iniciar el servicio.
  3. Abre el navegador e ingresa http://127.0.0.1:8888 para comenzar a usarlo (reemplaza 8888 con el puerto que hayas ingresado en el archivo de configuración).

Para: usuarios de macOS

【Si es la versión de escritorio, es decir, el archivo de release que lleva desktop, mira aquí】
Actualmente, debido a problemas de firma, la versión de escritorio no puede ejecutarse directamente con un doble clic o instalación de dmg, necesitas confiar manualmente en la aplicación, el método es el siguiente:

  1. Abre la terminal en el directorio donde se encuentra el archivo ejecutable (supongamos que el nombre del archivo es KlicStudio_1.0.0_desktop_macOS_arm64).
  2. Ejecuta los siguientes comandos uno por uno:
sudo xattr -cr ./KlicStudio_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KlicStudio_1.0.0_desktop_macOS_arm64 
./KlicStudio_1.0.0_desktop_macOS_arm64

【Si es la versión no de escritorio, es decir, el archivo de release que no lleva desktop, mira aquí】
Este software no tiene firma, por lo que al ejecutarlo en macOS, después de completar la configuración de archivos en "Pasos básicos", también necesitas confiar manualmente en la aplicación, el método es el siguiente:

  1. Abre la terminal en el directorio donde se encuentra el archivo ejecutable (supongamos que el nombre del archivo es KlicStudio_1.0.0_macOS_arm64).
  2. Ejecuta los siguientes comandos uno por uno:
     sudo xattr -rd com.apple.quarantine ./KlicStudio_1.0.0_macOS_arm64
     sudo chmod +x ./KlicStudio_1.0.0_macOS_arm64
     ./KlicStudio_1.0.0_macOS_arm64
    
    Esto iniciará el servicio.

Despliegue con Docker

Este proyecto soporta despliegue con Docker, por favor consulta Instrucciones de despliegue con Docker.

Instrucciones de configuración de Cookies (opcional)

Si encuentras problemas al descargar videos,

por favor consulta Instrucciones de configuración de Cookies para configurar tu información de Cookies.

Ayuda de configuración (imprescindible)

La forma más rápida y conveniente de configurar:

  • Rellena transcribe.provider.name con openai, así solo necesitas completar el bloque transcribe.openai y la configuración del modelo grande en el bloque llm para realizar la traducción de subtítulos. (app.proxy, model y openai.base_url son opcionales según tu situación).

Forma de configuración usando un modelo de reconocimiento de voz local (equilibrando costo, velocidad y calidad):

  • Rellena transcribe.provider.name con fasterwhisper, transcribe.fasterwhisper.model con large-v2, y luego completa el bloque llm con la configuración del modelo grande para realizar la traducción de subtítulos, el modelo local se descargará e instalará automáticamente. (app.proxy y openai.base_url son iguales a lo anterior).

La conversión de texto a voz (TTS) es opcional, la lógica de configuración es la misma que la anterior, rellena tts.provider.name, y luego completa el bloque de configuración correspondiente debajo de tts, en la interfaz de usuario, los códigos de voz se completan de acuerdo con la documentación del proveedor seleccionado (la dirección de la documentación está en las preguntas frecuentes a continuación). La entrada de ak, sk, etc. de Aliyun puede repetirse, esto es para garantizar que la estructura de configuración sea clara.
Nota: Si usas clonación de voz, tts solo soporta seleccionar aliyun.

Para obtener el AccessKey, Bucket y AppKey de Aliyun, por favor lee: Instrucciones de configuración de Aliyun.

Por favor entiende que la tarea = reconocimiento de voz + traducción de modelo grande + servicio de voz (TTS, etc., opcional), esto te ayudará a entender el archivo de configuración.

Preguntas frecuentes

Por favor visita Preguntas frecuentes.

Normas de contribución

  1. No envíes archivos innecesarios, como .vscode, .idea, etc., usa .gitignore para filtrarlos.
  2. No envíes config.toml, sino usa config-example.toml para enviar.

Contáctanos

  1. Únete a nuestro grupo de QQ para resolver dudas: 754069680.
  2. Sigue nuestras cuentas en redes sociales, Bilibili, compartimos contenido de calidad en el campo de la tecnología AI todos los días.

Historial de estrellas

Gráfico de historial de estrellas