Transkriptsiooniandmete ettevalmistamise skriptid laadivad alla YouTube'i videote transkriptsioonid ja valmistavad need ette kasutamiseks näidises "Semantiline otsing OpenAI Embeddings ja Functions abil".
Transkriptsiooniandmete ettevalmistamise skripte on testitud uusimate Windows 11, macOS Ventura ja Ubuntu 22.04 (ja uuemate) versioonidega.
Important
Soovitame värskendada Azure CLI uusimale versioonile, et tagada ühilduvus OpenAI-ga. Vaata dokumentatsiooni
- Loo ressursigrupp
Note
Nendes juhistes kasutame ressursigruppi nimega "semantic-video-search" asukohas East US. Ressursigrupi nime saab muuta, kuid ressursside asukoha muutmisel kontrollige mudelite saadavuse tabelit.
az group create --name semantic-video-search --location eastus- Loo Azure OpenAI Service ressurss.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Hangi lõpp-punkt ja võtmed selle rakenduse kasutamiseks.
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Paigalda järgmised mudelid:
text-embedding-ada-002versioon2või uuem, nimegatext-embedding-ada-002gpt-35-turboversioon0613või uuem, nimegagpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 või uuem
Järgmised keskkonnamuutujad on vajalikud YouTube'i transkriptsiooniandmete ettevalmistamise skriptide käivitamiseks.
Soovitame lisada muutujad oma kasutaja keskkonnamuutujatesse.
Windows Start > Muuda süsteemi keskkonnamuutujaid > Keskkonnamuutujad > Kasutaja muutujad [KASUTAJA] jaoks > Uus.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Soovitame lisada järgmised ekspordid oma ~/.bashrc või ~/.zshrc faili.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Paigalda git klient, kui see pole veel paigaldatud.
-
Ava
Terminalaken ja klooni näidis oma eelistatud repo kausta.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Liigu
data_prepkausta.cd semanic-search-openai-embeddings-functions/src/data_prep -
Loo Python'i virtuaalne keskkond.
Windowsis:
python -m venv .venvmacOS-is ja Linuxis:
python3 -m venv .venv
-
Aktiveeri Python'i virtuaalne keskkond.
Windowsis:
.venv\Scripts\activate
macOS-is ja Linuxis:
source .venv/bin/activate -
Paigalda vajalikud teegid.
Windowsis:
pip install -r requirements.txtmacOS-is ja Linuxis:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shLahtiütlus:
See dokument on tõlgitud AI tõlketeenuse Co-op Translator abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest.