Scripturile de pregătire a datelor de transcriere descarcă transcrierile video de pe YouTube și le pregătesc pentru utilizarea cu exemplul de Căutare Semantică cu OpenAI Embeddings și Functions.
Scripturile de pregătire a datelor de transcriere au fost testate pe cele mai recente versiuni Windows 11, macOS Ventura și Ubuntu 22.04 (și mai noi).
- Creați un grup de resurse
Note
Pentru aceste instrucțiuni folosim grupul de resurse numit "semantic-video-search" în East US. Puteți schimba numele grupului de resurse, dar când schimbați locația resurselor, verificați tabelul de disponibilitate a modelului.
az group create --name semantic-video-search --location eastus- Creați o resursă Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Obțineți endpoint-ul și cheile pentru utilizarea în această aplicație
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Implementați următoarele modele:
text-embedding-ada-002version2or greater, namedtext-embedding-ada-002gpt-35-turboversion0613or greater, namedgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 sau mai mare
Următoarele variabile de mediu sunt necesare pentru a rula scripturile de pregătire a datelor de transcriere YouTube.
Recomandăm adăugarea variabilelor la user environment variables.
Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Recomandăm adăugarea următoarelor exporturi în fișierul ~/.bashrc or ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Instalați clientul git dacă nu este deja instalat.
-
Dintr-o fereastră
Terminal, clonați exemplul în dosarul preferat pentru repo-uri.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Navigați la dosarul
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Creați un mediu virtual Python.
Pe Windows:
python -m venv .venvPe macOS și Linux:
python3 -m venv .venv
-
Activați mediul virtual Python.
Pe Windows:
.venv\Scripts\activate
Pe macOS și Linux:
source .venv/bin/activate -
Instalați bibliotecile necesare.
Pe Windows:
pip install -r requirements.txtPe macOS și Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shDeclinarea responsabilității:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți de faptul că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa maternă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională umană. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.