Los scripts de preparación de datos de transcripción descargan las transcripciones de videos de YouTube y las preparan para su uso con el ejemplo de Búsqueda Semántica con OpenAI Embeddings y Funciones.
Los scripts de preparación de datos de transcripción han sido probados en las últimas versiones de Windows 11, macOS Ventura y Ubuntu 22.04 (y superiores).
Important
Recomendamos actualizar Azure CLI a la última versión para asegurar la compatibilidad con OpenAI Consulta la Documentación
- Crear un grupo de recursos
Note
Para estas instrucciones estamos usando el grupo de recursos llamado "semantic-video-search" en East US. Puedes cambiar el nombre del grupo de recursos, pero al cambiar la ubicación de los recursos, revisa la tabla de disponibilidad de modelos.
az group create --name semantic-video-search --location eastus- Crear un recurso de Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Obtener el endpoint y las claves para su uso en esta aplicación
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Desplegar los siguientes modelos:
text-embedding-ada-002versión2o superior, nombradotext-embedding-ada-002gpt-35-turboversión0613o superior, nombradogpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 o superior
Las siguientes variables de entorno son necesarias para ejecutar los scripts de preparación de datos de transcripción de YouTube.
Se recomienda agregar las variables a las variables de entorno de tu usuario.
Inicio de Windows > Editar las variables de entorno del sistema > Variables de entorno > Variables de usuario para [USER] > Nuevo.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Se recomienda agregar las siguientes exportaciones a tu archivo ~/.bashrc o ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Instala el cliente git si aún no está instalado.
-
Desde una ventana de
Terminal, clona el ejemplo en la carpeta de tu repositorio preferido.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Navega a la carpeta
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Crea un entorno virtual de Python.
En Windows:
python -m venv .venvEn macOS y Linux:
python3 -m venv .venv
-
Activa el entorno virtual de Python.
En Windows:
.venv\Scripts\activate
En macOS y Linux:
source .venv/bin/activate -
Instala las librerías requeridas.
En Windows:
pip install -r requirements.txtEn macOS y Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shAviso legal:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Aunque nos esforzamos por la precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda la traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas derivadas del uso de esta traducción.