Preparación de datos de transcripción

Los scripts de preparación de datos de transcripción descargan las transcripciones de videos de YouTube y las preparan para su uso con el ejemplo de Búsqueda Semántica con OpenAI Embeddings y Funciones.

Los scripts de preparación de datos de transcripción han sido probados en las últimas versiones de Windows 11, macOS Ventura y Ubuntu 22.04 (y superiores).

Crear los recursos necesarios en Azure OpenAI Service

Important

Recomendamos actualizar Azure CLI a la última versión para asegurar la compatibilidad con OpenAI Consulta la Documentación

Crear un grupo de recursos

Note

Para estas instrucciones estamos usando el grupo de recursos llamado "semantic-video-search" en East US. Puedes cambiar el nombre del grupo de recursos, pero al cambiar la ubicación de los recursos, revisa la tabla de disponibilidad de modelos.

az group create --name semantic-video-search --location eastus

Crear un recurso de Azure OpenAI Service.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

Obtener el endpoint y las claves para su uso en esta aplicación

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

Desplegar los siguientes modelos:
- text-embedding-ada-002 versión 2 o superior, nombrado text-embedding-ada-002
- gpt-35-turbo versión 0613 o superior, nombrado gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Software requerido

Python 3.9 o superior

Variables de entorno

Las siguientes variables de entorno son necesarias para ejecutar los scripts de preparación de datos de transcripción de YouTube.

En Windows

Se recomienda agregar las variables a las variables de entorno de tu usuario. Inicio de Windows > Editar las variables de entorno del sistema > Variables de entorno > Variables de usuario para [USER] > Nuevo.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

En Linux y macOS

Se recomienda agregar las siguientes exportaciones a tu archivo ~/.bashrc o ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Instalar las librerías de Python requeridas

Instala el cliente git si aún no está instalado.
Desde una ventana de Terminal, clona el ejemplo en la carpeta de tu repositorio preferido.
```
git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
```

Navega a la carpeta data_prep.

cd semanic-search-openai-embeddings-functions/src/data_prep

Crea un entorno virtual de Python.

En Windows:
```
python -m venv .venv
```
En macOS y Linux:
```
python3 -m venv .venv
```
Activa el entorno virtual de Python.

En Windows:
```
.venv\Scripts\activate
```
En macOS y Linux:
```
source .venv/bin/activate
```

Instala las librerías requeridas.

En Windows:

pip install -r requirements.txt

En macOS y Linux:

pip3 install -r requirements.txt

Ejecutar los scripts de preparación de datos de transcripción de YouTube

En Windows

.\transcripts_prepare.ps1

En macOS y Linux

./transcripts_prepare.sh

Aviso legal:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Aunque nos esforzamos por la precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda la traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas derivadas del uso de esta traducción.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Preparación de datos de transcripción

Crear los recursos necesarios en Azure OpenAI Service

Software requerido

Variables de entorno

En Windows

En Linux y macOS

Instalar las librerías de Python requeridas

Ejecutar los scripts de preparación de datos de transcripción de YouTube

En Windows

En macOS y Linux

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Preparación de datos de transcripción

Crear los recursos necesarios en Azure OpenAI Service

Software requerido

Variables de entorno

En Windows

En Linux y macOS

Instalar las librerías de Python requeridas

Ejecutar los scripts de preparación de datos de transcripción de YouTube

En Windows

En macOS y Linux