Preparação de dados de transcrição

Os scripts de preparação de dados de transcrição baixam transcrições de vídeos do YouTube e as preparam para uso com a amostra de Pesquisa Semântica com OpenAI Embeddings e Functions.

Os scripts de preparação de dados de transcrição foram testados nas últimas versões do Windows 11, macOS Ventura e Ubuntu 22.04 (e acima).

Criar os recursos necessários do Azure OpenAI Service

Important

Sugerimos que você atualize o Azure CLI para a versão mais recente para garantir compatibilidade com OpenAI Veja Documentação

Crie um grupo de recursos

Note

Para estas instruções, estamos usando o grupo de recursos chamado "semantic-video-search" no Leste dos EUA. Você pode alterar o nome do grupo de recursos, mas ao mudar a localização dos recursos, verifique a tabela de disponibilidade de modelos.

az group create --name semantic-video-search --location eastus

Crie um recurso do Azure OpenAI Service.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

Obtenha o endpoint e as chaves para uso nesta aplicação

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

Implante os seguintes modelos:
- text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
- gpt-35-turbo version 0613 or greater, named gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Software necessário

Python 3.9 ou superior

Variáveis de ambiente

As seguintes variáveis de ambiente são necessárias para executar os scripts de preparação de dados de transcrição do YouTube.

No Windows

Recomendamos adicionar as variáveis ao seu user environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

No Linux e macOS

Recomendamos adicionar as seguintes exportações ao seu arquivo ~/.bashrc or ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Instale as bibliotecas Python necessárias

Instale o cliente git se ainda não estiver instalado.
A partir de uma janela Terminal, clone a amostra para sua pasta de repositório preferida.
```
git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
```

Navegue até a pasta data_prep.

cd semanic-search-openai-embeddings-functions/src/data_prep

Crie um ambiente virtual Python.

No Windows:
```
python -m venv .venv
```
No macOS e Linux:
```
python3 -m venv .venv
```
Ative o ambiente virtual Python.

No Windows:
```
.venv\Scripts\activate
```
No macOS e Linux:
```
source .venv/bin/activate
```

Instale as bibliotecas necessárias.

No Windows:

pip install -r requirements.txt

No macOS e Linux:

pip3 install -r requirements.txt

Execute os scripts de preparação de dados de transcrição do YouTube

No Windows

.\transcripts_prepare.ps1

No macOS e Linux

./transcripts_prepare.sh

Aviso Legal:
Este documento foi traduzido usando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informações críticas, recomenda-se a tradução humana profissional. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações errôneas decorrentes do uso desta tradução.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Preparação de dados de transcrição

Criar os recursos necessários do Azure OpenAI Service

Software necessário

Variáveis de ambiente

No Windows

No Linux e macOS

Instale as bibliotecas Python necessárias

Execute os scripts de preparação de dados de transcrição do YouTube

No Windows

No macOS e Linux

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Preparação de dados de transcrição

Criar os recursos necessários do Azure OpenAI Service

Software necessário

Variáveis de ambiente

No Windows

No Linux e macOS

Instale as bibliotecas Python necessárias

Execute os scripts de preparação de dados de transcrição do YouTube

No Windows

No macOS e Linux