Preparazione dati trascrizione

Gli script per la preparazione dei dati di trascrizione scaricano le trascrizioni dei video YouTube e le preparano per l'uso con l'esempio Semantic Search con OpenAI Embeddings e Functions.

Gli script per la preparazione dei dati di trascrizione sono stati testati sulle ultime versioni di Windows 11, macOS Ventura e Ubuntu 22.04 (e successive).

Creare le risorse necessarie per Azure OpenAI Service

Important

Consigliamo di aggiornare l'Azure CLI all'ultima versione per garantire la compatibilità con OpenAI Consulta la Documentazione

Crea un gruppo di risorse

Note

Per queste istruzioni utilizziamo il gruppo di risorse chiamato "semantic-video-search" in East US. Puoi cambiare il nome del gruppo di risorse, ma se modifichi la posizione delle risorse, verifica la tabella di disponibilità dei modelli.

az group create --name semantic-video-search --location eastus

Crea una risorsa Azure OpenAI Service.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

Ottieni l'endpoint e le chiavi per l'uso in questa applicazione

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

Distribuisci i seguenti modelli:
- text-embedding-ada-002 versione 2 o superiore, denominato text-embedding-ada-002
- gpt-35-turbo versione 0613 o superiore, denominato gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Software richiesto

Python 3.9 o superiore

Variabili d'ambiente

Le seguenti variabili d'ambiente sono necessarie per eseguire gli script di preparazione dati trascrizione YouTube.

Su Windows

Si consiglia di aggiungere le variabili alle variabili d'ambiente utente. Start di Windows > Modifica le variabili d'ambiente di sistema > Variabili d'ambiente > Variabili utente per [USER] > Nuova.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Su Linux e macOS

Si consiglia di aggiungere le seguenti esportazioni al file ~/.bashrc o ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Installare le librerie Python richieste

Installa il client git se non è già installato.

Da una finestra Terminale, clona l'esempio nella cartella del tuo repository preferito.

git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git

Vai nella cartella data_prep.

cd semanic-search-openai-embeddings-functions/src/data_prep

Crea un ambiente virtuale Python.

Su Windows:
```
python -m venv .venv
```
Su macOS e Linux:
```
python3 -m venv .venv
```
Attiva l'ambiente virtuale Python.

Su Windows:
```
.venv\Scripts\activate
```
Su macOS e Linux:
```
source .venv/bin/activate
```

Installa le librerie richieste.

Su Windows:

pip install -r requirements.txt

Su macOS e Linux:

pip3 install -r requirements.txt

Eseguire gli script di preparazione dati trascrizione YouTube

Su Windows

.\transcripts_prepare.ps1

Su macOS e Linux

./transcripts_prepare.sh

Disclaimer:
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica Co-op Translator. Pur impegnandoci per garantire l’accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un umano. Non ci assumiamo alcuna responsabilità per eventuali malintesi o interpretazioni errate derivanti dall’uso di questa traduzione.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Preparazione dati trascrizione

Creare le risorse necessarie per Azure OpenAI Service

Software richiesto

Variabili d'ambiente

Su Windows

Su Linux e macOS

Installare le librerie Python richieste

Eseguire gli script di preparazione dati trascrizione YouTube

Su Windows

Su macOS e Linux

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Preparazione dati trascrizione

Creare le risorse necessarie per Azure OpenAI Service

Software richiesto

Variabili d'ambiente

Su Windows

Su Linux e macOS

Installare le librerie Python richieste

Eseguire gli script di preparazione dati trascrizione YouTube

Su Windows

Su macOS e Linux