Skip to content

Latest commit

 

History

History
177 lines (125 loc) · 5.5 KB

File metadata and controls

177 lines (125 loc) · 5.5 KB

Transkriptsiooniandmete ettevalmistamine

Transkriptsiooniandmete ettevalmistamise skriptid laadivad alla YouTube'i videote transkriptsioonid ja valmistavad need ette kasutamiseks näidises "Semantiline otsing OpenAI Embeddings ja Functions abil".

Transkriptsiooniandmete ettevalmistamise skripte on testitud uusimate Windows 11, macOS Ventura ja Ubuntu 22.04 (ja uuemate) versioonidega.

Vajalike Azure OpenAI Service ressursside loomine

Important

Soovitame värskendada Azure CLI uusimale versioonile, et tagada ühilduvus OpenAI-ga. Vaata dokumentatsiooni

  1. Loo ressursigrupp

Note

Nendes juhistes kasutame ressursigruppi nimega "semantic-video-search" asukohas East US. Ressursigrupi nime saab muuta, kuid ressursside asukoha muutmisel kontrollige mudelite saadavuse tabelit.

az group create --name semantic-video-search --location eastus
  1. Loo Azure OpenAI Service ressurss.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Hangi lõpp-punkt ja võtmed selle rakenduse kasutamiseks.
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Paigalda järgmised mudelid:
    • text-embedding-ada-002 versioon 2 või uuem, nimega text-embedding-ada-002
    • gpt-35-turbo versioon 0613 või uuem, nimega gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Vajalik tarkvara

Keskkonnamuutujad

Järgmised keskkonnamuutujad on vajalikud YouTube'i transkriptsiooniandmete ettevalmistamise skriptide käivitamiseks.

Windowsis

Soovitame lisada muutujad oma kasutaja keskkonnamuutujatesse. Windows Start > Muuda süsteemi keskkonnamuutujaid > Keskkonnamuutujad > Kasutaja muutujad [KASUTAJA] jaoks > Uus.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Linuxis ja macOS-is

Soovitame lisada järgmised ekspordid oma ~/.bashrc või ~/.zshrc faili.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Vajalike Python'i teekide paigaldamine

  1. Paigalda git klient, kui see pole veel paigaldatud.

  2. Ava Terminal aken ja klooni näidis oma eelistatud repo kausta.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Liigu data_prep kausta.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Loo Python'i virtuaalne keskkond.

    Windowsis:

    python -m venv .venv

    macOS-is ja Linuxis:

    python3 -m venv .venv
  5. Aktiveeri Python'i virtuaalne keskkond.

    Windowsis:

    .venv\Scripts\activate

    macOS-is ja Linuxis:

    source .venv/bin/activate
  6. Paigalda vajalikud teegid.

    Windowsis:

    pip install -r requirements.txt

    macOS-is ja Linuxis:

    pip3 install -r requirements.txt

Käivita YouTube'i transkriptsiooniandmete ettevalmistamise skriptid

Windowsis

.\transcripts_prepare.ps1

macOS-is ja Linuxis

./transcripts_prepare.sh

Lahtiütlus:
See dokument on tõlgitud AI tõlketeenuse Co-op Translator abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest.