Os scripts de preparação de dados de transcrição descarregam transcrições de vídeos do YouTube e preparam-nas para uso com o exemplo de Pesquisa Semântica com Embeddings e Funções OpenAI.
Os scripts de preparação de dados de transcrição foram testados nas versões mais recentes do Windows 11, macOS Ventura e Ubuntu 22.04 (e superiores).
Important
Recomendamos que atualize o Azure CLI para a versão mais recente para garantir a compatibilidade com o OpenAI Consulte a Documentação
- Crie um grupo de recursos
Note
Para estas instruções, estamos a usar o grupo de recursos chamado "semantic-video-search" na região East US. Pode alterar o nome do grupo de recursos, mas ao mudar a localização dos recursos, verifique a tabela de disponibilidade de modelos.
az group create --name semantic-video-search --location eastus- Crie um recurso do Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Obtenha o endpoint e as chaves para utilização nesta aplicação
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Faça o deploy dos seguintes modelos:
text-embedding-ada-002versão2ou superior, com o nometext-embedding-ada-002gpt-35-turboversão0613ou superior, com o nomegpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 ou superior
As seguintes variáveis de ambiente são necessárias para executar os scripts de preparação de dados de transcrição do YouTube.
Recomendamos adicionar as variáveis às variáveis de ambiente do seu utilizador.
Iniciar Windows > Editar as variáveis de ambiente do sistema > Variáveis de Ambiente > Variáveis do utilizador para [USER] > Novo.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Recomendamos adicionar os seguintes exports ao seu ficheiro ~/.bashrc ou ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Instale o cliente git se ainda não estiver instalado.
-
A partir de uma janela de
Terminal, clone o exemplo para a sua pasta de repositório preferida.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Navegue até à pasta
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Crie um ambiente virtual Python.
No Windows:
python -m venv .venvNo macOS e Linux:
python3 -m venv .venv
-
Ative o ambiente virtual Python.
No Windows:
.venv\Scripts\activate
No macOS e Linux:
source .venv/bin/activate -
Instale as bibliotecas necessárias.
No Windows:
pip install -r requirements.txtNo macOS e Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shAviso Legal:
Este documento foi traduzido utilizando o serviço de tradução automática Co-op Translator. Embora nos esforcemos pela precisão, por favor tenha em conta que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes da utilização desta tradução.