Skip to content

Latest commit

 

History

History
176 lines (127 loc) · 5.71 KB

File metadata and controls

176 lines (127 loc) · 5.71 KB

Przygotowanie danych transkrypcji

Skrypty do przygotowania danych transkrypcji pobierają transkrypcje wideo z YouTube i przygotowują je do użycia z wyszukiwaniem semantycznym z użyciem OpenAI Embeddings i Functions.

Skrypty do przygotowania danych transkrypcji zostały przetestowane na najnowszych wersjach Windows 11, macOS Ventura i Ubuntu 22.04 (i wyżej).

Tworzenie wymaganych zasobów Azure OpenAI Service

Important

Zalecamy aktualizację Azure CLI do najnowszej wersji, aby zapewnić kompatybilność z OpenAI. Zobacz Dokumentację

  1. Utwórz grupę zasobów

Note

W tych instrukcjach używamy grupy zasobów o nazwie "semantic-video-search" w East US. Możesz zmienić nazwę grupy zasobów, ale zmieniając lokalizację dla zasobów, sprawdź tabelę dostępności modeli.

az group create --name semantic-video-search --location eastus
  1. Utwórz zasób Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Uzyskaj punkt końcowy i klucze do użycia w tej aplikacji.
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Wdróż następujące modele:
    • text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
    • gpt-35-turbo version 0613 or greater, named gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Wymagane oprogramowanie

Zmienne środowiskowe

Poniższe zmienne środowiskowe są wymagane do uruchomienia skryptów przygotowania danych transkrypcji z YouTube.

Na Windows

Zalecamy dodanie zmiennych do user environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Na Linux i macOS

Zalecamy dodanie poniższych eksportów do pliku ~/.bashrc or ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Instalacja wymaganych bibliotek Python

  1. Zainstaluj klienta git, jeśli nie jest już zainstalowany.

  2. Z okna Terminal, sklonuj próbkę do preferowanego folderu repozytorium.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Przejdź do folderu data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Utwórz wirtualne środowisko Python.

    Na Windows:

    python -m venv .venv

    Na macOS i Linux:

    python3 -m venv .venv
  5. Aktywuj wirtualne środowisko Python.

    Na Windows:

    .venv\Scripts\activate

    Na macOS i Linux:

    source .venv/bin/activate
  6. Zainstaluj wymagane biblioteki.

    Na Windows:

    pip install -r requirements.txt

    Na macOS i Linux:

    pip3 install -r requirements.txt

Uruchom skrypty przygotowania danych transkrypcji z YouTube

Na Windows

.\transcripts_prepare.ps1

Na macOS i Linux

./transcripts_prepare.sh

Zrzeczenie się odpowiedzialności:
Ten dokument został przetłumaczony przy użyciu usługi tłumaczenia AI Co-op Translator. Chociaż staramy się zapewnić dokładność, prosimy mieć na uwadze, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za źródło autorytatywne. W przypadku informacji krytycznych zaleca się profesjonalne tłumaczenie przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.