Gli script per la preparazione dei dati di trascrizione scaricano le trascrizioni dei video YouTube e le preparano per l'uso con l'esempio Semantic Search con OpenAI Embeddings e Functions.
Gli script per la preparazione dei dati di trascrizione sono stati testati sulle ultime versioni di Windows 11, macOS Ventura e Ubuntu 22.04 (e successive).
Important
Consigliamo di aggiornare l'Azure CLI all'ultima versione per garantire la compatibilità con OpenAI Consulta la Documentazione
- Crea un gruppo di risorse
Note
Per queste istruzioni utilizziamo il gruppo di risorse chiamato "semantic-video-search" in East US. Puoi cambiare il nome del gruppo di risorse, ma se modifichi la posizione delle risorse, verifica la tabella di disponibilità dei modelli.
az group create --name semantic-video-search --location eastus- Crea una risorsa Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Ottieni l'endpoint e le chiavi per l'uso in questa applicazione
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Distribuisci i seguenti modelli:
text-embedding-ada-002versione2o superiore, denominatotext-embedding-ada-002gpt-35-turboversione0613o superiore, denominatogpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 o superiore
Le seguenti variabili d'ambiente sono necessarie per eseguire gli script di preparazione dati trascrizione YouTube.
Si consiglia di aggiungere le variabili alle variabili d'ambiente utente.
Start di Windows > Modifica le variabili d'ambiente di sistema > Variabili d'ambiente > Variabili utente per [USER] > Nuova.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Si consiglia di aggiungere le seguenti esportazioni al file ~/.bashrc o ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Installa il client git se non è già installato.
-
Da una finestra
Terminale, clona l'esempio nella cartella del tuo repository preferito.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Vai nella cartella
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Crea un ambiente virtuale Python.
Su Windows:
python -m venv .venvSu macOS e Linux:
python3 -m venv .venv
-
Attiva l'ambiente virtuale Python.
Su Windows:
.venv\Scripts\activate
Su macOS e Linux:
source .venv/bin/activate -
Installa le librerie richieste.
Su Windows:
pip install -r requirements.txtSu macOS e Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shDisclaimer:
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica Co-op Translator. Pur impegnandoci per garantire l’accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un umano. Non ci assumiamo alcuna responsabilità per eventuali malintesi o interpretazioni errate derivanti dall’uso di questa traduzione.