Skip to content

Latest commit

 

History

History
169 lines (118 loc) · 5.45 KB

File metadata and controls

169 lines (118 loc) · 5.45 KB

Preparación de datos de transcripción

Los scripts de preparación de datos de transcripción descargan las transcripciones de videos de YouTube y las preparan para su uso con el ejemplo de Búsqueda Semántica con OpenAI Embeddings y Funciones.

Los scripts de preparación de datos de transcripción han sido probados en las últimas versiones de Windows 11, macOS Ventura y Ubuntu 22.04 (y superiores).

Crear los recursos necesarios en Azure OpenAI Service

Important

Recomendamos actualizar Azure CLI a la última versión para asegurar la compatibilidad con OpenAI Consulta la Documentación

  1. Crear un grupo de recursos

Note

Para estas instrucciones estamos usando el grupo de recursos llamado "semantic-video-search" en East US. Puedes cambiar el nombre del grupo de recursos, pero al cambiar la ubicación de los recursos, revisa la tabla de disponibilidad de modelos.

az group create --name semantic-video-search --location eastus
  1. Crear un recurso de Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Obtener el endpoint y las claves para su uso en esta aplicación
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Desplegar los siguientes modelos:
    • text-embedding-ada-002 versión 2 o superior, nombrado text-embedding-ada-002
    • gpt-35-turbo versión 0613 o superior, nombrado gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Software requerido

Variables de entorno

Las siguientes variables de entorno son necesarias para ejecutar los scripts de preparación de datos de transcripción de YouTube.

En Windows

Se recomienda agregar las variables a las variables de entorno de tu usuario. Inicio de Windows > Editar las variables de entorno del sistema > Variables de entorno > Variables de usuario para [USER] > Nuevo.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

En Linux y macOS

Se recomienda agregar las siguientes exportaciones a tu archivo ~/.bashrc o ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Instalar las librerías de Python requeridas

  1. Instala el cliente git si aún no está instalado.

  2. Desde una ventana de Terminal, clona el ejemplo en la carpeta de tu repositorio preferido.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Navega a la carpeta data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Crea un entorno virtual de Python.

    En Windows:

    python -m venv .venv

    En macOS y Linux:

    python3 -m venv .venv
  5. Activa el entorno virtual de Python.

    En Windows:

    .venv\Scripts\activate

    En macOS y Linux:

    source .venv/bin/activate
  6. Instala las librerías requeridas.

    En Windows:

    pip install -r requirements.txt

    En macOS y Linux:

    pip3 install -r requirements.txt

Ejecutar los scripts de preparación de datos de transcripción de YouTube

En Windows

.\transcripts_prepare.ps1

En macOS y Linux

./transcripts_prepare.sh

Aviso legal:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Aunque nos esforzamos por la precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda la traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas derivadas del uso de esta traducción.