Skriptene for forberedelse av transkripsjonsdata laster ned YouTube-video-transkripsjoner og klargjør dem for bruk med eksempelet Semantic Search med OpenAI Embeddings og Functions.
Skriptene for forberedelse av transkripsjonsdata er testet på de nyeste versjonene av Windows 11, macOS Ventura og Ubuntu 22.04 (og nyere).
Important
Vi anbefaler at du oppdaterer Azure CLI til nyeste versjon for å sikre kompatibilitet med OpenAI Se Dokumentasjon
- Opprett en ressursgruppe
Note
I disse instruksjonene bruker vi ressursgruppen med navnet "semantic-video-search" i East US. Du kan endre navnet på ressursgruppen, men hvis du endrer plasseringen for ressursene, sjekk modelltilgjengelighetstabellen.
az group create --name semantic-video-search --location eastus- Opprett en Azure OpenAI Service-ressurs.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Hent endepunkt og nøkler for bruk i denne applikasjonen
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Distribuer følgende modeller:
text-embedding-ada-002versjon2eller nyere, med navnettext-embedding-ada-002gpt-35-turboversjon0613eller nyere, med navnetgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 eller nyere
Følgende miljøvariabler er nødvendige for å kjøre skriptene for forberedelse av YouTube-transkripsjonsdata.
Vi anbefaler å legge til variablene i dine user miljøvariabler.
Windows Start > Rediger systemmiljøvariabler > Miljøvariabler > Brukervariabler for [USER] > Ny.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Vi anbefaler å legge til følgende eksport-kommandoer i din ~/.bashrc eller ~/.zshrc fil.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Installer git-klienten hvis den ikke allerede er installert.
-
Fra et
Terminal-vindu, klon eksempelet til ønsket mappe for repo.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Gå til
data_prep-mappen.cd semanic-search-openai-embeddings-functions/src/data_prep -
Opprett et Python virtuelt miljø.
På Windows:
python -m venv .venvPå macOS og Linux:
python3 -m venv .venv
-
Aktiver det virtuelle Python-miljøet.
På Windows:
.venv\Scripts\activate
På macOS og Linux:
source .venv/bin/activate -
Installer nødvendige biblioteker.
På Windows:
pip install -r requirements.txtPå macOS og Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shAnsvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten Co-op Translator. Selv om vi streber etter nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det opprinnelige dokumentet på originalspråket skal anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.