Skip to content

Latest commit

 

History

History
169 lines (118 loc) · 6.71 KB

File metadata and controls

169 lines (118 loc) · 6.71 KB

Припрема података за транскрипцију

Скрипте за припрему података за транскрипцију преузимају транскрипте YouTube видео снимака и припремају их за коришћење са примером Semantic Search са OpenAI уграђеним моделима и функцијама.

Скрипте за припрему података за транскрипцију тестиране су на најновијим верзијама Windows 11, macOS Ventura и Ubuntu 22.04 (и новијим).

Креирање потребних ресурса у Azure OpenAI Service

Important

Препоручујемо да ажурирате Azure CLI на најновију верзију како бисте обезбедили компатибилност са OpenAI Погледајте Документацију

  1. Креирајте resource group

Note

За ове инструкције користимо resource group под именом "semantic-video-search" у East US региону. Можете променити име resource group-а, али ако мењате локацију ресурса, проверите табелу доступности модела.

az group create --name semantic-video-search --location eastus
  1. Креирајте Azure OpenAI Service ресурс.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Преузмите endpoint и кључеве за коришћење у овој апликацији
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Деплојујте следеће моделе:
    • text-embedding-ada-002 верзија 2 или новија, под именом text-embedding-ada-002
    • gpt-35-turbo верзија 0613 или новија, под именом gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Потребан софтвер

Променљиве окружења

За покретање скрипти за припрему YouTube транскрипција потребне су следеће променљиве окружења.

На Windows-у

Препоручује се додавање променљивих у user променљиве окружења. Windows Start > Edit the system environment variables > Environment Variables > User variables за [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

На Linux-у и macOS-у

Препоручује се додавање следећих export наредби у ваш ~/.bashrc или ~/.zshrc фајл.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Инсталирање потребних Python библиотека

  1. Инсталирајте git клијент ако већ није инсталиран.

  2. Из Terminal прозора, клонирајте пример у жељени фолдер за репозиторијум.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Идите у фолдер data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Креирајте Python виртуелно окружење.

    На Windows-у:

    python -m venv .venv

    На macOS-у и Linux-у:

    python3 -m venv .venv
  5. Активирајте Python виртуелно окружење.

    На Windows-у:

    .venv\Scripts\activate

    На macOS-у и Linux-у:

    source .venv/bin/activate
  6. Инсталирајте потребне библиотеке.

    На Windows-у:

    pip install -r requirements.txt

    На macOS-у и Linux-у:

    pip3 install -r requirements.txt

Покретање скрипти за припрему YouTube транскрипција

На Windows-у

.\transcripts_prepare.ps1

На macOS-у и Linux-у

./transcripts_prepare.sh

Одрицање од одговорности:
Овај документ је преведен коришћењем AI сервиса за превођење Co-op Translator. Иако се трудимо да превод буде тачан, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитетним извором. За критичне информације препоручује се професионални људски превод. Нисмо одговорни за било каква неспоразума или погрешна тумачења настала коришћењем овог превода.