Skip to content

Latest commit

 

History

History
167 lines (118 loc) · 5.33 KB

File metadata and controls

167 lines (118 loc) · 5.33 KB

Príprava dát pre prepis

Skripty na prípravu dát pre prepis sťahujú prepisy videí z YouTube a pripravujú ich na použitie so vzorom Semantic Search s OpenAI Embeddings a Functions.

Skripty na prípravu dát pre prepis boli testované na najnovších verziách Windows 11, macOS Ventura a Ubuntu 22.04 (a novších).

Vytvorenie potrebných zdrojov Azure OpenAI Service

Important

Odporúčame aktualizovať Azure CLI na najnovšiu verziu, aby bola zabezpečená kompatibilita s OpenAI Viac informácií nájdete v dokumentácii

  1. Vytvorte skupinu zdrojov

Note

V týchto inštrukciách používame skupinu zdrojov s názvom "semantic-video-search" v regióne East US. Môžete zmeniť názov skupiny zdrojov, ale pri zmene lokality zdrojov skontrolujte tabuľku dostupnosti modelov.

az group create --name semantic-video-search --location eastus
  1. Vytvorte zdroj Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Získajte endpoint a kľúče na použitie v tejto aplikácii
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Nasadzujte nasledujúce modely:
    • text-embedding-ada-002 verzia 2 alebo vyššia, pomenovaný text-embedding-ada-002
    • gpt-35-turbo verzia 0613 alebo vyššia, pomenovaný gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Požadovaný softvér

Premenné prostredia

Na spustenie skriptov na prípravu dát prepisu z YouTube sú potrebné nasledujúce premenné prostredia.

Na Windows

Odporúčame pridať premenné do používateľských premenných prostredia. Windows Štart > Upraviť systémové premenné prostredia > Premenné prostredia > Používateľské premenné pre [USER] > Nové.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Na Linux a macOS

Odporúčame pridať nasledujúce exporty do súboru ~/.bashrc alebo ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Inštalácia potrebných Python knižníc

  1. Nainštalujte git klienta, ak ešte nie je nainštalovaný.

  2. V okne Terminál naklonujte vzorový projekt do preferovaného priečinka repozitára.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Prejdite do priečinka data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Vytvorte Python virtuálne prostredie.

    Na Windows:

    python -m venv .venv

    Na macOS a Linux:

    python3 -m venv .venv
  5. Aktivujte Python virtuálne prostredie.

    Na Windows:

    .venv\Scripts\activate

    Na macOS a Linux:

    source .venv/bin/activate
  6. Nainštalujte požadované knižnice.

    Na Windows:

    pip install -r requirements.txt

    Na macOS a Linux:

    pip3 install -r requirements.txt

Spustenie skriptov na prípravu dát prepisu z YouTube

Na Windows

.\transcripts_prepare.ps1

Na macOS a Linux

./transcripts_prepare.sh

Vyhlásenie o zodpovednosti:
Tento dokument bol preložený pomocou AI prekladateľskej služby Co-op Translator. Hoci sa snažíme o presnosť, prosím, majte na pamäti, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Originálny dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nie sme zodpovední za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.