Transkriptionsdataförberedelse

Skript för transkriptionsdataförberedelse laddar ner YouTube-videotranskript och förbereder dem för användning med exemplet Semantic Search med OpenAI Embeddings och Functions.

Skripten för transkriptionsdataförberedelse har testats på de senaste versionerna av Windows 11, macOS Ventura och Ubuntu 22.04 (och senare).

Skapa nödvändiga Azure OpenAI Service-resurser

Important

Vi rekommenderar att du uppdaterar Azure CLI till den senaste versionen för att säkerställa kompatibilitet med OpenAI Se Dokumentation

Skapa en resursgrupp

Note

För dessa instruktioner använder vi resursgruppen med namnet "semantic-video-search" i East US. Du kan ändra namnet på resursgruppen, men om du ändrar platsen för resurserna, kontrollera modellens tillgänglighetstabell.

az group create --name semantic-video-search --location eastus

Skapa en Azure OpenAI Service-resurs.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

Hämta endpoint och nycklar för användning i denna applikation

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

Distribuera följande modeller:
- text-embedding-ada-002 version 2 eller högre, med namnet text-embedding-ada-002
- gpt-35-turbo version 0613 eller högre, med namnet gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Nödvändig programvara

Python 3.9 eller senare

Miljövariabler

Följande miljövariabler krävs för att köra skripten för YouTube-transkriptionsdataförberedelse.

På Windows

Vi rekommenderar att du lägger till variablerna i dina user-miljövariabler. Windows Start > Redigera systemets miljövariabler > Miljövariabler > Användarvariabler för [USER] > Ny.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

På Linux och macOS

Vi rekommenderar att du lägger till följande exports i din ~/.bashrc eller ~/.zshrc-fil.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Installera nödvändiga Python-bibliotek

Installera git-klienten om den inte redan är installerad.

Från ett Terminal-fönster, klona exemplet till din föredragna mapp för repo.

git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git

Navigera till mappen data_prep.

cd semanic-search-openai-embeddings-functions/src/data_prep

Skapa en Python-virtuell miljö.

På Windows:
```
python -m venv .venv
```
På macOS och Linux:
```
python3 -m venv .venv
```
Aktivera den virtuella Python-miljön.

På Windows:
```
.venv\Scripts\activate
```
På macOS och Linux:
```
source .venv/bin/activate
```
Installera de nödvändiga biblioteken.

På Windows:
```
pip install -r requirements.txt
```
På macOS och Linux:
```
pip3 install -r requirements.txt
```

Kör skripten för YouTube-transkriptionsdataförberedelse

På Windows

.\transcripts_prepare.ps1

På macOS och Linux

./transcripts_prepare.sh

Ansvarsfriskrivning:
Detta dokument har översatts med hjälp av AI-översättningstjänsten Co-op Translator. Även om vi strävar efter noggrannhet, vänligen observera att automatiska översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess modersmål bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för några missförstånd eller feltolkningar som uppstår vid användning av denna översättning.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Transkriptionsdataförberedelse

Skapa nödvändiga Azure OpenAI Service-resurser

Nödvändig programvara

Miljövariabler

På Windows

På Linux och macOS

Installera nödvändiga Python-bibliotek

Kör skripten för YouTube-transkriptionsdataförberedelse

På Windows

På macOS och Linux

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Transkriptionsdataförberedelse

Skapa nödvändiga Azure OpenAI Service-resurser

Nödvändig programvara

Miljövariabler

På Windows

På Linux och macOS

Installera nödvändiga Python-bibliotek

Kör skripten för YouTube-transkriptionsdataförberedelse

På Windows

På macOS och Linux