Skripty na prípravu dát pre prepis sťahujú prepisy videí z YouTube a pripravujú ich na použitie so vzorom Semantic Search s OpenAI Embeddings a Functions.
Skripty na prípravu dát pre prepis boli testované na najnovších verziách Windows 11, macOS Ventura a Ubuntu 22.04 (a novších).
Important
Odporúčame aktualizovať Azure CLI na najnovšiu verziu, aby bola zabezpečená kompatibilita s OpenAI Viac informácií nájdete v dokumentácii
- Vytvorte skupinu zdrojov
Note
V týchto inštrukciách používame skupinu zdrojov s názvom "semantic-video-search" v regióne East US. Môžete zmeniť názov skupiny zdrojov, ale pri zmene lokality zdrojov skontrolujte tabuľku dostupnosti modelov.
az group create --name semantic-video-search --location eastus- Vytvorte zdroj Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Získajte endpoint a kľúče na použitie v tejto aplikácii
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Nasadzujte nasledujúce modely:
text-embedding-ada-002verzia2alebo vyššia, pomenovanýtext-embedding-ada-002gpt-35-turboverzia0613alebo vyššia, pomenovanýgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 alebo novší
Na spustenie skriptov na prípravu dát prepisu z YouTube sú potrebné nasledujúce premenné prostredia.
Odporúčame pridať premenné do používateľských premenných prostredia.
Windows Štart > Upraviť systémové premenné prostredia > Premenné prostredia > Používateľské premenné pre [USER] > Nové.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Odporúčame pridať nasledujúce exporty do súboru ~/.bashrc alebo ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Nainštalujte git klienta, ak ešte nie je nainštalovaný.
-
V okne
Terminálnaklonujte vzorový projekt do preferovaného priečinka repozitára.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Prejdite do priečinka
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Vytvorte Python virtuálne prostredie.
Na Windows:
python -m venv .venvNa macOS a Linux:
python3 -m venv .venv
-
Aktivujte Python virtuálne prostredie.
Na Windows:
.venv\Scripts\activate
Na macOS a Linux:
source .venv/bin/activate -
Nainštalujte požadované knižnice.
Na Windows:
pip install -r requirements.txtNa macOS a Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shVyhlásenie o zodpovednosti:
Tento dokument bol preložený pomocou AI prekladateľskej služby Co-op Translator. Hoci sa snažíme o presnosť, prosím, majte na pamäti, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Originálny dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nie sme zodpovední za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.