Pregătirea datelor de transcriere

Scripturile pentru pregătirea datelor de transcriere descarcă transcrierile videoclipurilor YouTube și le pregătesc pentru utilizare cu exemplul Semantic Search cu OpenAI Embeddings și Functions.

Scripturile pentru pregătirea datelor de transcriere au fost testate pe cele mai recente versiuni Windows 11, macOS Ventura și Ubuntu 22.04 (și versiuni ulterioare).

Crearea resurselor necesare pentru Azure OpenAI Service

Important

Vă recomandăm să actualizați Azure CLI la cea mai recentă versiune pentru a asigura compatibilitatea cu OpenAI Consultați Documentația

Creați un grup de resurse

Note

Pentru aceste instrucțiuni folosim grupul de resurse numit "semantic-video-search" în East US. Puteți schimba numele grupului de resurse, dar dacă schimbați locația resurselor, verificați tabelul de disponibilitate a modelelor.

az group create --name semantic-video-search --location eastus

Creați o resursă Azure OpenAI Service.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

Obțineți endpoint-ul și cheile pentru utilizare în această aplicație

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

Implementați următoarele modele:
- text-embedding-ada-002 versiunea 2 sau mai mare, denumit text-embedding-ada-002
- gpt-35-turbo versiunea 0613 sau mai mare, denumit gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Software necesar

Python 3.9 sau o versiune superioară

Variabile de mediu

Următoarele variabile de mediu sunt necesare pentru a rula scripturile de pregătire a datelor de transcriere YouTube.

Pe Windows

Recomandăm adăugarea variabilelor în variabilele de mediu ale utilizatorului. Windows Start > Edit the system environment variables > Environment Variables > User variables pentru [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Pe Linux și macOS

Recomandăm adăugarea următoarelor exporturi în fișierul ~/.bashrc sau ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Instalarea bibliotecilor Python necesare

Instalați git client dacă nu este deja instalat.

Dintr-o fereastră Terminal, clonați exemplul în folderul preferat pentru repo.

git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git

Navigați în folderul data_prep.

cd semanic-search-openai-embeddings-functions/src/data_prep

Creați un mediu virtual Python.

Pe Windows:
```
python -m venv .venv
```
Pe macOS și Linux:
```
python3 -m venv .venv
```
Activați mediul virtual Python.

Pe Windows:
```
.venv\Scripts\activate
```
Pe macOS și Linux:
```
source .venv/bin/activate
```

Instalați bibliotecile necesare.

Pe Windows:

pip install -r requirements.txt

Pe macOS și Linux:

pip3 install -r requirements.txt

Rulați scripturile de pregătire a datelor de transcriere YouTube

Pe Windows

.\transcripts_prepare.ps1

Pe macOS și Linux

./transcripts_prepare.sh

Declinare de responsabilitate:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși ne străduim pentru acuratețe, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă trebuie considerat sursa autorizată. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite rezultate din utilizarea acestei traduceri.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pregătirea datelor de transcriere

Crearea resurselor necesare pentru Azure OpenAI Service

Software necesar

Variabile de mediu

Pe Windows

Pe Linux și macOS

Instalarea bibliotecilor Python necesare

Rulați scripturile de pregătire a datelor de transcriere YouTube

Pe Windows

Pe macOS și Linux

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Pregătirea datelor de transcriere

Crearea resurselor necesare pentru Azure OpenAI Service

Software necesar

Variabile de mediu

Pe Windows

Pe Linux și macOS

Instalarea bibliotecilor Python necesare

Rulați scripturile de pregătire a datelor de transcriere YouTube

Pe Windows

Pe macOS și Linux