Skip to content

Latest commit

 

History

History
176 lines (127 loc) · 5.84 KB

File metadata and controls

176 lines (127 loc) · 5.84 KB

Preparación de datos de transcripción

Los scripts de preparación de datos de transcripción descargan las transcripciones de videos de YouTube y las preparan para su uso con el ejemplo de Búsqueda Semántica con OpenAI Embeddings y Functions.

Los scripts de preparación de datos de transcripción han sido probados en las últimas versiones de Windows 11, macOS Ventura y Ubuntu 22.04 (y superiores).

Crear los recursos necesarios del servicio Azure OpenAI

Important

Sugerimos actualizar Azure CLI a la última versión para asegurar la compatibilidad con OpenAI. Ver Documentación

  1. Crear un grupo de recursos

Note

Para estas instrucciones estamos usando el grupo de recursos llamado "semantic-video-search" en East US. Puedes cambiar el nombre del grupo de recursos, pero al cambiar la ubicación de los recursos, verifica la tabla de disponibilidad de modelos.

az group create --name semantic-video-search --location eastus
  1. Crear un recurso del servicio Azure OpenAI.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Obtener el punto final y las claves para su uso en esta aplicación
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Desplegar los siguientes modelos:
    • text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
    • gpt-35-turbo version 0613 or greater, named gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Software requerido

Variables de entorno

Se requieren las siguientes variables de entorno para ejecutar los scripts de preparación de datos de transcripción de YouTube.

En Windows

Se recomienda agregar las variables a tu usuario environment variables. Inicio de Windows > Editar las variables de entorno del sistema > Variables de entorno > Variables de usuario for [USER] > Nuevo.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

En Linux y macOS

Se recomienda agregar las siguientes exportaciones a tu archivo ~/.bashrc or ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Instalar las bibliotecas de Python requeridas

  1. Instalar el cliente de git si aún no está instalado.

  2. Desde una ventana de Terminal, clona el ejemplo en tu carpeta de repositorio preferida.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Navega a la carpeta data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Crear un entorno virtual de Python.

    En Windows:

    python -m venv .venv

    En macOS y Linux:

    python3 -m venv .venv
  5. Activar el entorno virtual de Python.

    En Windows:

    .venv\Scripts\activate

    En macOS y Linux:

    source .venv/bin/activate
  6. Instalar las bibliotecas requeridas.

    En Windows:

    pip install -r requirements.txt

    En macOS y Linux:

    pip3 install -r requirements.txt

Ejecutar los scripts de preparación de datos de transcripción de YouTube

En Windows

.\transcripts_prepare.ps1

En macOS y Linux

./transcripts_prepare.sh

Descargo de responsabilidad:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Aunque nos esforzamos por lograr precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción humana profesional. No somos responsables de ningún malentendido o interpretación errónea que surja del uso de esta traducción.