Skip to content

Latest commit

 

History

History
169 lines (118 loc) · 5.3 KB

File metadata and controls

169 lines (118 loc) · 5.3 KB

Puheen tekstitysdataprep

Puheen tekstitysdataprep-skriptit lataavat YouTube-videoiden tekstitykset ja valmistavat ne käytettäväksi Semantic Search with OpenAI Embeddings and Functions -esimerkin kanssa.

Puheen tekstitysdataprep-skriptejä on testattu uusimmilla Windows 11-, macOS Ventura- ja Ubuntu 22.04 (ja uudemmilla) versioilla.

Luo tarvittavat Azure OpenAI Service -resurssit

Important

Suosittelemme päivittämään Azure CLI:n uusimpaan versioon yhteensopivuuden varmistamiseksi OpenAI:n kanssa Katso Dokumentaatio

  1. Luo resurssiryhmä

Note

Näissä ohjeissa käytämme "semantic-video-search" nimistä resurssiryhmää East US -alueella. Voit vaihtaa resurssiryhmän nimeä, mutta jos vaihdat resurssien sijaintia, tarkista mallien saatavuustaulukko.

az group create --name semantic-video-search --location eastus
  1. Luo Azure OpenAI Service -resurssi.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Hanki tämän sovelluksen käyttöön tarvittavat päätepiste ja avaimet
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Ota käyttöön seuraavat mallit:
    • text-embedding-ada-002 versio 2 tai uudempi, nimeltään text-embedding-ada-002
    • gpt-35-turbo versio 0613 tai uudempi, nimeltään gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Tarvittava ohjelmisto

Ympäristömuuttujat

Seuraavat ympäristömuuttujat ovat pakollisia YouTube-tekstitysdatan valmisteluskriptien suorittamiseen.

Windowsilla

Suosittelemme lisäämään muuttujat käyttäjän ympäristömuuttujiin. Windowsin Käynnistä > Muokkaa järjestelmän ympäristömuuttujia > Ympäristömuuttujat > Käyttäjämuuttujat kohdalla [USER] > Uusi.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Linuxilla ja macOS:llä

Suosittelemme lisäämään seuraavat export-komennot tiedostoon ~/.bashrc tai ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Asenna tarvittavat Python-kirjastot

  1. Asenna git-asiakasohjelma, jos sitä ei ole jo asennettu.

  2. Avaa Terminal-ikkuna ja kloonaa esimerkkikansio haluamaasi repositorioon.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Siirry data_prep-kansioon.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Luo Python-virtuaaliympäristö.

    Windowsilla:

    python -m venv .venv

    macOS:llä ja Linuxilla:

    python3 -m venv .venv
  5. Aktivoi Python-virtuaaliympäristö.

    Windowsilla:

    .venv\Scripts\activate

    macOS:llä ja Linuxilla:

    source .venv/bin/activate
  6. Asenna tarvittavat kirjastot.

    Windowsilla:

    pip install -r requirements.txt

    macOS:llä ja Linuxilla:

    pip3 install -r requirements.txt

Suorita YouTube-tekstitysdatan valmisteluskriptit

Windowsilla

.\transcripts_prepare.ps1

macOS:llä ja Linuxilla

./transcripts_prepare.sh

Vastuuvapauslauseke:
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, huomioithan, että automaattikäännöksissä saattaa esiintyä virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulee pitää virallisena lähteenä. Tärkeissä tiedoissa suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa tämän käännöksen käytöstä aiheutuvista väärinymmärryksistä tai tulkinnoista.