Skripte za pripremu podataka za transkripciju preuzimaju transkripte YouTube videozapisa i pripremaju ih za korištenje s primjerom Semantic Search with OpenAI Embeddings and Functions.
Skripte za pripremu podataka za transkripciju testirane su na najnovijim verzijama Windows 11, macOS Ventura i Ubuntu 22.04 (i novijim).
Important
Preporučujemo da ažurirate Azure CLI na najnoviju verziju kako biste osigurali kompatibilnost s OpenAI Pogledajte Dokumentaciju
- Kreirajte resource group
Note
Za ove upute koristimo resource group pod nazivom "semantic-video-search" u regiji East US. Možete promijeniti naziv resource group, ali ako mijenjate lokaciju resursa, provjerite tablicu dostupnosti modela.
az group create --name semantic-video-search --location eastus- Kreirajte Azure OpenAI Service resurs.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Dohvatite endpoint i ključeve za korištenje u ovoj aplikaciji
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Postavite sljedeće modele:
text-embedding-ada-002verzija2ili novija, pod nazivomtext-embedding-ada-002gpt-35-turboverzija0613ili novija, pod nazivomgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 ili noviji
Za pokretanje skripti za pripremu podataka za YouTube transkripciju potrebne su sljedeće varijable okoline.
Preporučuje se dodavanje varijabli u user varijable okoline.
Windows Start > Edit the system environment variables > Environment Variables > User variables za [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Preporučuje se dodavanje sljedećih export naredbi u vašu ~/.bashrc ili ~/.zshrc datoteku.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Instalirajte git client ako već nije instaliran.
-
Iz
Terminalprozora klonirajte primjer u željeni repozitorij.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Pređite u mapu
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Kreirajte Python virtualno okruženje.
Na Windowsu:
python -m venv .venvNa macOS-u i Linuxu:
python3 -m venv .venv
-
Aktivirajte Python virtualno okruženje.
Na Windowsu:
.venv\Scripts\activate
Na macOS-u i Linuxu:
source .venv/bin/activate -
Instalirajte potrebne biblioteke.
Na Windowsu:
pip install -r requirements.txtNa macOS-u i Linuxu:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shOdricanje od odgovornosti:
Ovaj dokument je preveden korištenjem AI usluge za prevođenje Co-op Translator. Iako težimo točnosti, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za kritične informacije preporučuje se profesionalni ljudski prijevod. Ne snosimo odgovornost za bilo kakva nesporazume ili pogrešna tumačenja koja proizlaze iz korištenja ovog prijevoda.