Skip to content

Latest commit

 

History

History
176 lines (127 loc) · 7.23 KB

File metadata and controls

176 lines (127 loc) · 7.23 KB

Подготовка на данни за транскрипция

Скриптовете за подготовка на данни за транскрипция изтеглят транскрипции на видеоклипове от YouTube и ги подготвят за използване с Пример за семантично търсене с OpenAI Embeddings и Functions.

Скриптовете за подготовка на данни за транскрипция са тествани на последните версии на Windows 11, macOS Ventura и Ubuntu 22.04 (и по-нови).

Създаване на необходимите ресурси на Azure OpenAI Service

Important

Препоръчваме да актуализирате Azure CLI до последната версия, за да осигурите съвместимост с OpenAI Вижте Документация

  1. Създайте ресурсна група

Note

За тези инструкции използваме ресурсната група с име "semantic-video-search" в East US. Можете да промените името на ресурсната група, но когато променяте местоположението на ресурсите, проверете таблицата за наличност на модели.

az group create --name semantic-video-search --location eastus
  1. Създайте ресурс на Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Получете крайна точка и ключове за използване в това приложение
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Разгърнете следните модели:
    • text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
    • gpt-35-turbo version 0613 or greater, named gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Необходим софтуер

Променливи на средата

Следните променливи на средата са необходими за изпълнение на скриптовете за подготовка на данни за транскрипция от YouTube.

В Windows

Препоръчваме да добавите променливите към вашия user environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

В Linux и macOS

Препоръчваме да добавите следните експорти към вашия файл ~/.bashrc or ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Инсталиране на необходимите Python библиотеки

  1. Инсталирайте git клиента, ако не е инсталиран.

  2. Отворете Terminal и клонирайте примера в предпочитаната от вас папка за репо.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Навигирайте до папката data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Създайте виртуална среда за Python.

    В Windows:

    python -m venv .venv

    В macOS и Linux:

    python3 -m venv .venv
  5. Активирайте виртуалната среда за Python.

    В Windows:

    .venv\Scripts\activate

    В macOS и Linux:

    source .venv/bin/activate
  6. Инсталирайте необходимите библиотеки.

    В Windows:

    pip install -r requirements.txt

    В macOS и Linux:

    pip3 install -r requirements.txt

Изпълнение на скриптовете за подготовка на данни за транскрипция от YouTube

В Windows

.\transcripts_prepare.ps1

В macOS и Linux

./transcripts_prepare.sh

Отказ от отговорност: Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Докато се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Не носим отговорност за недоразумения или погрешни тълкувания, произтичащи от използването на този превод.