Скрипти підготовки даних транскрипції завантажують транскрипти відео з YouTube і готують їх для використання з прикладом Semantic Search з OpenAI Embeddings та Functions.
Скрипти підготовки даних транскрипції були протестовані на останніх версіях Windows 11, macOS Ventura та Ubuntu 22.04 (і новіших).
Important
Рекомендуємо оновити Azure CLI до останньої версії для забезпечення сумісності з OpenAI Дивіться Документацію
- Створіть групу ресурсів
Note
У цих інструкціях ми використовуємо групу ресурсів з назвою "semantic-video-search" у регіоні East US. Ви можете змінити назву групи ресурсів, але при зміні розташування ресурсів, перевірте таблицю доступності моделей.
az group create --name semantic-video-search --location eastus- Створіть ресурс Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Отримайте endpoint та ключі для використання в цьому додатку
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Розгорніть наступні моделі:
text-embedding-ada-002версії2або вище, з назвоюtext-embedding-ada-002gpt-35-turboверсії0613або вище, з назвоюgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 або новіша версія
Для запуску скриптів підготовки даних транскрипції YouTube потрібні наступні змінні середовища.
Рекомендується додати змінні до змінних середовища користувача.
Пуск Windows > Змінити системні змінні середовища > Змінні середовища > Змінні користувача для [USER] > Створити.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Рекомендується додати наступні експорти у файл ~/.bashrc або ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Встановіть git клієнт, якщо він ще не встановлений.
-
У вікні
Терміналусклонуйте приклад у бажану папку репозиторію.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Перейдіть у папку
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Створіть віртуальне середовище Python.
У Windows:
python -m venv .venvУ macOS та Linux:
python3 -m venv .venv
-
Активуйте віртуальне середовище Python.
У Windows:
.venv\Scripts\activate
У macOS та Linux:
source .venv/bin/activate -
Встановіть необхідні бібліотеки.
У Windows:
pip install -r requirements.txtУ macOS та Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shВідмова від відповідальності:
Цей документ було перекладено за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується звертатися до професійного людського перекладу. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.