Vorbereitung von Transkriptionsdaten

Die Skripte zur Vorbereitung von Transkriptionsdaten laden YouTube-Video-Transkripte herunter und bereiten sie für die Verwendung mit der semantischen Suche mit OpenAI Embeddings und Functions-Beispielen vor.

Die Skripte zur Vorbereitung von Transkriptionsdaten wurden auf den neuesten Versionen von Windows 11, macOS Ventura und Ubuntu 22.04 (und höher) getestet.

Erstellen der erforderlichen Azure OpenAI Service-Ressourcen

Important

Wir empfehlen, die Azure CLI auf die neueste Version zu aktualisieren, um die Kompatibilität mit OpenAI sicherzustellen. Siehe Dokumentation

Erstellen Sie eine Ressourcengruppe

Note

Für diese Anweisungen verwenden wir die Ressourcengruppe namens "semantic-video-search" in East US. Sie können den Namen der Ressourcengruppe ändern, aber wenn Sie den Standort der Ressourcen ändern, überprüfen Sie die Modellverfügbarkeitstabelle.

az group create --name semantic-video-search --location eastus

Erstellen Sie eine Azure OpenAI Service-Ressource.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

Holen Sie sich den Endpunkt und die Schlüssel für die Verwendung in dieser Anwendung

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

Bereitstellen der folgenden Modelle:
- text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
- gpt-35-turbo version 0613 or greater, named gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Erforderliche Software

Python 3.9 oder höher

Umgebungsvariablen

Die folgenden Umgebungsvariablen sind erforderlich, um die Skripte zur Vorbereitung von YouTube-Transkriptionsdaten auszuführen.

Auf Windows

Es wird empfohlen, die Variablen zu Ihrem Benutzer environment variables. Windows Start > Systemumgebungsvariablen bearbeiten > Umgebungsvariablen > Benutzervariablen for [USER] > Neu hinzuzufügen.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Auf Linux und macOS

Es wird empfohlen, die folgenden Exporte zu Ihrer ~/.bashrc or ~/.zshrc Datei hinzuzufügen.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Installieren der erforderlichen Python-Bibliotheken

Installieren Sie den git client, falls noch nicht installiert.
Klonen Sie das Beispiel aus einem Terminal-Fenster in Ihren bevorzugten Repository-Ordner.
```
git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
```

Navigieren Sie zum data_prep Ordner.

cd semanic-search-openai-embeddings-functions/src/data_prep

Erstellen Sie eine Python-virtuelle Umgebung.

Auf Windows:
```
python -m venv .venv
```
Auf macOS und Linux:
```
python3 -m venv .venv
```
Aktivieren Sie die Python-virtuelle Umgebung.

Auf Windows:
```
.venv\Scripts\activate
```
Auf macOS und Linux:
```
source .venv/bin/activate
```
Installieren Sie die erforderlichen Bibliotheken.

Auf Windows:
```
pip install -r requirements.txt
```
Auf macOS und Linux:
```
pip3 install -r requirements.txt
```

Ausführen der YouTube-Transkriptionsdaten-Vorbereitungsskripte

Auf Windows

.\transcripts_prepare.ps1

Auf macOS und Linux

./transcripts_prepare.sh

Haftungsausschluss:
Dieses Dokument wurde mit dem KI-Übersetzungsdienst Co-op Translator übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für wichtige Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Verwendung dieser Übersetzung ergeben.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Vorbereitung von Transkriptionsdaten

Erstellen der erforderlichen Azure OpenAI Service-Ressourcen

Erforderliche Software

Umgebungsvariablen

Auf Windows

Auf Linux und macOS

Installieren der erforderlichen Python-Bibliotheken

Ausführen der YouTube-Transkriptionsdaten-Vorbereitungsskripte

Auf Windows

Auf macOS und Linux

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Vorbereitung von Transkriptionsdaten

Erstellen der erforderlichen Azure OpenAI Service-Ressourcen

Erforderliche Software

Umgebungsvariablen

Auf Windows

Auf Linux und macOS

Installieren der erforderlichen Python-Bibliotheken

Ausführen der YouTube-Transkriptionsdaten-Vorbereitungsskripte

Auf Windows

Auf macOS und Linux