Skript för transkriptionsdataförberedelse laddar ner YouTube-videotranskript och förbereder dem för användning med exemplet Semantic Search med OpenAI Embeddings och Functions.
Skripten för transkriptionsdataförberedelse har testats på de senaste versionerna av Windows 11, macOS Ventura och Ubuntu 22.04 (och senare).
Important
Vi rekommenderar att du uppdaterar Azure CLI till den senaste versionen för att säkerställa kompatibilitet med OpenAI Se Dokumentation
- Skapa en resursgrupp
Note
För dessa instruktioner använder vi resursgruppen med namnet "semantic-video-search" i East US. Du kan ändra namnet på resursgruppen, men om du ändrar platsen för resurserna, kontrollera modellens tillgänglighetstabell.
az group create --name semantic-video-search --location eastus- Skapa en Azure OpenAI Service-resurs.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Hämta endpoint och nycklar för användning i denna applikation
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Distribuera följande modeller:
text-embedding-ada-002version2eller högre, med namnettext-embedding-ada-002gpt-35-turboversion0613eller högre, med namnetgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 eller senare
Följande miljövariabler krävs för att köra skripten för YouTube-transkriptionsdataförberedelse.
Vi rekommenderar att du lägger till variablerna i dina user-miljövariabler.
Windows Start > Redigera systemets miljövariabler > Miljövariabler > Användarvariabler för [USER] > Ny.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Vi rekommenderar att du lägger till följande exports i din ~/.bashrc eller ~/.zshrc-fil.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Installera git-klienten om den inte redan är installerad.
-
Från ett
Terminal-fönster, klona exemplet till din föredragna mapp för repo.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Navigera till mappen
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Skapa en Python-virtuell miljö.
På Windows:
python -m venv .venvPå macOS och Linux:
python3 -m venv .venv
-
Aktivera den virtuella Python-miljön.
På Windows:
.venv\Scripts\activate
På macOS och Linux:
source .venv/bin/activate -
Installera de nödvändiga biblioteken.
På Windows:
pip install -r requirements.txtPå macOS och Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shAnsvarsfriskrivning:
Detta dokument har översatts med hjälp av AI-översättningstjänsten Co-op Translator. Även om vi strävar efter noggrannhet, vänligen observera att automatiska översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess modersmål bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för några missförstånd eller feltolkningar som uppstår vid användning av denna översättning.