🚀 Curador QA Avanzado - QA Curator Pro

QA Curator Pro es una plataforma avanzada que resuelve el cuello de botella crítico en el desarrollo de IA: la escasez de datasets de alta calidad en español. Nuestro sistema combina IA especializada con validación humana para transformar documentación técnica en pares pregunta-respuesta certificados, listos para fine-tuning de modelos.

Detalle de la interfaz

🌟 Características Principales

✅ Implementado en v4.2

🔄 Multi-Modalidad de Inferencia: Soporte para modelos en la nube (Gemini) y locales (Ollama)
🎯 Especialización por Dominio: Plugins para Medicina, Leyes, Tecnología y Finanzas
📊 Generación Estructurada: JSON schema validation para outputs consistentes
⚡ Optimización para Modelos Pequeños: Soporte robusto para phi3:mini y modelos locales
🎨 Interfaz Intuitiva: Workflow visual con 5 pasos claramente definidos
📈 Métricas de Calidad: Scoring heurístico automático con análisis de precisión
🔧 Edición en Tiempo Real: Modificación y validación humana de pares QA
📥 Exportación Flexible: Descarga en formato JSON listo para fine-tuning

🏗️ En Desarrollo (v5.0)

👥 Sistema de Anotadores: Plataforma colaborativa con validación humana
🔍 Módulo de Búsqueda Avanzada: Integración con APIs de búsqueda web
📚 Gestión de Proyectos: Workspaces para equipos y organizaciones
🎚️ Control de Calidad Granular: Sistema de puntuación multi-dimensional

🚀 Roadmap Futuro

🌐 API RESTful: Para integración con otros sistemas
🔒 Sistema de Autenticación: Roles y permisos granular
📊 Dashboard Analytics: Métricas avanzadas de calidad de datos
🤖 Auto-ML Pipeline: Fine-tuning automático de modelos
🌍 Multi-idioma: Soporte para inglés, portugués y más

🎯 Estado del Proyecto

MVP AVANZADO → BUSCANDO SOCIOS PARA ESCALAR A PRODUCCIÓN

Versión Actual: v4.2 - "Local Inference Optimized"
Próxima Versión: v5.0 - "Collaborative Annotation Platform"

🛠️ Instalación y Uso Rápido

🐳 Opción 1: Docker (Recomendado - Sin dependencias locales)

# 1. Clonar el proyecto
git clone [repository-url]
cd qa-curator-pro

# 2. Configurar variables de entorno
cp .env.example .env
# Editar .env y añadir: VITE_GEMINI_API_KEY=tu_clave_aqui

## 🐳 Prerrequisitos - Docker
Instalar Docker (Requerido para comandos Docker)

[Windows: Descargar Docker Desktop](https://www.docker.com/products/docker-desktop/)

[Mac: Docker Desktop for Mac](https://www.docker.com/products/docker-desktop/)

[Linux: Docker Engine](https://www.docker.com/products/docker-desktop/)

Verificar Instalación

docker --version
docker-compose --version
Si no tienes Docker instalado, usa la Opción 2
o instala Docker

# 3. Ejecutar con Docker Compose
npm run docker:compose-dev

# La aplicación estará en: http://localhost:5173

💻 Opción 2: Instalación Tradicional

# 1. Clonar y configurar
git clone [repository-url]
cd qa-curator-pro
npm install
npm install lucide-react

# 2. Configurar variables de entorno
cp .env.example .env
# Crear archivo .env en la raíz y añadir:
VITE_GEMINI_API_KEY=tu_clave_aqui

# 3. Ejecutar en desarrollo
npm run dev

# 4. Otros comandos:
npm install
npm run dev          # Desarrollo
npm run build        # Build producción  
npm run preview      # Preview build
npm run lint         # Linter

# La aplicación estará en: http://localhost:5173

🚀 Opción 3: Producción con Docker

# Build y ejecución en producción
npm run docker:build
npm run docker:run

# O usando docker-compose para producción
npm run docker:compose

# La aplicación estará en: http://localhost:3000

Comandos Docker Disponibles

npm run docker:build      # Build de la imagen Docker
npm run docker:run        # Ejecutar contenedor
npm run docker:compose    # Production con Docker Compose  
npm run docker:compose-dev # Desarrollo con hot-reload
npm run docker:clean      # Limpiar contenedores e imágenes

Configuración Ollama (Modo Local)

# Instalar Ollama (opcional para modo local)
curl -fsSL https://ollama.ai/install.sh | sh

# Descargar modelos recomendados
ollama pull phi3:mini
ollama pull llama3:8b

# Verificar instalación
ollama list

🔧 Resumen de Scripts Disponibles

# Desarrollo
npm run dev              # Servidor de desarrollo
npm run build            # Build para producción
npm run preview          # Preview del build
npm run lint             # Linter de código

# Docker
npm run docker:build     # Build de imagen Docker
npm run docker:run       # Ejecutar contenedor
npm run docker:compose   # Production con Docker Compose
npm run docker:compose-dev # Desarrollo con Docker
npm run docker:clean     # Limpiar recursos Docker

🎯 Casos de Uso

🏥 Sector Salud

Generación de datasets para asistentes médicos virtuales
Preguntas y respuestas sobre protocolos médicos
Entrenamiento de modelos para triaje automatizado

⚖️ Sector Legal

Creación de datasets para consultas legales
Análisis de jurisprudencia y normativas
Asistentes para profesionales del derecho

💰 Sector Financiero

Datasets para asesores financieros IA
Preguntas sobre regulaciones financieras
Análisis de documentación económica

🔧 Sector Tecnológico

Documentación técnica para chatbots de soporte
Preguntas frecuentes sobre productos
Entrenamiento de modelos para customer service

💼 Modelo de Negocio

Open Core Strategy

🔓 Community Edition: Gratuita para investigación, educación y proyectos open-source
💰 Enterprise Edition: Licencias comerciales con soporte premium y características avanzadas
🤝 Partnerships: Colaboraciones estratégicas con empresas y instituciones

Segmentos Objetivo

🏢 Empresas Tech: Necesitan datasets específicos para sus productos
🎓 Instituciones Educativas: Investigación en NLP y desarrollo de IA
🏛️ Gobierno: Digitalización de servicios públicos con IA conversacional
🏥 Healthcare: Asistentes médicos con información validada

📊 Métricas Técnicas

Calidad de Datasets

Precisión Heurística: 85%+ en modelos locales optimizados
Consistencia Estructural: Validación JSON schema 100%
Diversidad de Dificultad: Mix balanceado básico/intermedio/avanzado
Trazabilidad Completa: Metadata completa de origen y procesamiento

Rendimiento

Tiempo de Generación: 15-30 segundos por lote de 4-6 QA pairs
Soporte de Modelos: phi3:mini, llama3:8b, Gemini Flash, y más
Escalabilidad: Arquitectura preparada para procesamiento distribuido

🔬 Tecnologías Implementadas

Frontend

React 18 + Vite
Tailwind CSS
Lucide React (iconos)
Context API para estado global

Infraestructura & DevOps

Docker & Docker Compose
Nginx (servidor de producción)
Multi-stage builds optimizados

Backend & IA

Google Gemini API
Ollama (modelos locales)
Fetch API con retry logic
JSON Schema validation

Características Avanzadas

Hot-reload durante desarrollo
Parsing tolerante a fallos
Sistema de plugins extensible
Métricas de calidad en tiempo real
Entornos consistentes con Docker

🏢 Para Empresas e Inversores

Oportunidades de Colaboración

📜 Licencias Exclusivas: Por sector vertical (salud, legal, finanzas)
🤝 Joint Ventures: Desarrollo de soluciones específicas por mercado
💼 Acuerdos de Implementación: Personalización para casos de uso específicos
🔬 Investigación Conjunta: Desarrollo de nuevas capacidades de IA

Propuesta de Valor

⏱️ Reducción de Tiempo: De meses a minutos en creación de datasets
💰 Ahorro de Costos: 70%+ menos en anotación manual
🎯 Especialización: Dominio específico vs. soluciones genéricas
🔒 Control: Datos propios vs. dependencia de terceros

Mercado Objetivo

Tamaño: $2.3B mercado global de datasets de IA (2024)
Crecimiento: 28% CAGR 2023-2028
Necesidad: Escasez crítica de datos en español de calidad

🌟 Ventajas Competitivas

🔄 Dual Cloud/Local

Única plataforma que funciona tanto con APIs cloud como modelos locales, garantizando continuidad y flexibilidad.

🎯 Especialización por Dominio

No es un generador genérico - entiende contextos específicos de cada industria.

⚡ Optimización para Español

Desarrollado específicamente para las particularidades del lenguaje español.

🔧 Validación Humana en el Loop

Sistema diseñado para integración perfecta entre IA y expertos humanos.

🐳 Entorno Consistente

Despliegue instantáneo con Docker - mismo comportamiento en desarrollo y producción.

📞 Contacto y Colaboraciones

¿Interesado en licenciar la tecnología, invertir en el proyecto o explorar colaboraciones?

Información de Contacto

📧 Email | 📋 Portafolio | 💼 LinkedIn | ☕ Invitar un Café

Áreas de Interés Específico

🤝 Partners de implementación por sector
💼 Empresas necesitando datasets específicos
🔬 Instituciones de investigación
🎓 Universidades para proyectos académicos
🏢 Empresas tech para integraciones

🚀 Próximos Pasos

🎯 v5.0: Sistema colaborativo de anotadores
🌐 v5.1: API pública y documentación
🏢 v5.2: Módulo empresarial con RBAC
🤖 v6.0: Pipeline completo de AutoML

¿Te interesa participar en alguna de estas fases? ¡Hablemos!

"Transformando documentación en inteligencia conversacional y datasets a la vez."

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
docs_ejemplo_generados		docs_ejemplo_generados
public		public
src		src
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
eslint.config.js		eslint.config.js
index.html		index.html
nginx.conf		nginx.conf
package-lock.json		package-lock.json
package.json		package.json
qademo1.png		qademo1.png
tailwind.config.js		tailwind.config.js
vite.config.js		vite.config.js

License

Charran78/QA_Curator_Dataset_ML_IA_Creator_Espanol

Folders and files

Latest commit

History

Repository files navigation