Подготовка на данни за транскрипция

Скриптовете за подготовка на данни за транскрипция изтеглят транскрипти на видеоклипове от YouTube и ги подготвят за използване с примера Semantic Search с OpenAI Embeddings и Functions.

Скриптовете за подготовка на данни за транскрипция са тествани на последните версии на Windows 11, macOS Ventura и Ubuntu 22.04 (и по-нови).

Създаване на необходимите ресурси в Azure OpenAI Service

Important

Препоръчваме да актуализирате Azure CLI до най-новата версия, за да осигурите съвместимост с OpenAI Вижте Документация

Създайте ресурсна група

Note

В тези инструкции използваме ресурсна група с име "semantic-video-search" в East US. Можете да промените името на ресурсната група, но при смяна на местоположението на ресурсите, проверете таблицата за наличност на модели.

az group create --name semantic-video-search --location eastus

Създайте ресурс в Azure OpenAI Service.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

Вземете endpoint и ключовете за използване в това приложение

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

Разположете следните модели:
- text-embedding-ada-002 версия 2 или по-нова, с име text-embedding-ada-002
- gpt-35-turbo версия 0613 или по-нова, с име gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Необходим софтуер

Python 3.9 или по-нова версия

Променливи на средата

Следните променливи на средата са необходими за стартиране на скриптовете за подготовка на данни за транскрипция от YouTube.

В Windows

Препоръчваме да добавите променливите към потребителските променливи на средата. Windows Start > Edit the system environment variables > Environment Variables > User variables за [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

В Linux и macOS

Препоръчваме да добавите следните export команди във вашия ~/.bashrc или ~/.zshrc файл.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Инсталиране на необходимите Python библиотеки

Инсталирайте git клиента, ако все още не е инсталиран.
Отворете Terminal и клонирайте примера в предпочитаната от вас папка за репозитории.
```
git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
```

Отидете в папката data_prep.

cd semanic-search-openai-embeddings-functions/src/data_prep

Създайте виртуална Python среда.

В Windows:
```
python -m venv .venv
```
В macOS и Linux:
```
python3 -m venv .venv
```
Активирайте виртуалната Python среда.

В Windows:
```
.venv\Scripts\activate
```
В macOS и Linux:
```
source .venv/bin/activate
```
Инсталирайте необходимите библиотеки.

В Windows:
```
pip install -r requirements.txt
```
В macOS и Linux:
```
pip3 install -r requirements.txt
```

Стартиране на скриптовете за подготовка на данни за транскрипция от YouTube

В Windows

.\transcripts_prepare.ps1

В macOS и Linux

./transcripts_prepare.sh

Отказ от отговорност:
Този документ е преведен с помощта на AI преводаческа услуга Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за каквито и да е недоразумения или неправилни тълкувания, произтичащи от използването на този превод.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Подготовка на данни за транскрипция

Създаване на необходимите ресурси в Azure OpenAI Service

Необходим софтуер

Променливи на средата

В Windows

В Linux и macOS

Инсталиране на необходимите Python библиотеки

Стартиране на скриптовете за подготовка на данни за транскрипция от YouTube

В Windows

В macOS и Linux

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Подготовка на данни за транскрипция

Създаване на необходимите ресурси в Azure OpenAI Service

Необходим софтуер

Променливи на средата

В Windows

В Linux и macOS

Инсталиране на необходимите Python библиотеки

Стартиране на скриптовете за подготовка на данни за транскрипция от YouTube

В Windows

В macOS и Linux