Puheen tekstitysdataprep-skriptit lataavat YouTube-videoiden tekstitykset ja valmistavat ne käytettäväksi Semantic Search with OpenAI Embeddings and Functions -esimerkin kanssa.
Puheen tekstitysdataprep-skriptejä on testattu uusimmilla Windows 11-, macOS Ventura- ja Ubuntu 22.04 (ja uudemmilla) versioilla.
Important
Suosittelemme päivittämään Azure CLI:n uusimpaan versioon yhteensopivuuden varmistamiseksi OpenAI:n kanssa Katso Dokumentaatio
- Luo resurssiryhmä
Note
Näissä ohjeissa käytämme "semantic-video-search" nimistä resurssiryhmää East US -alueella. Voit vaihtaa resurssiryhmän nimeä, mutta jos vaihdat resurssien sijaintia, tarkista mallien saatavuustaulukko.
az group create --name semantic-video-search --location eastus- Luo Azure OpenAI Service -resurssi.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Hanki tämän sovelluksen käyttöön tarvittavat päätepiste ja avaimet
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Ota käyttöön seuraavat mallit:
text-embedding-ada-002versio2tai uudempi, nimeltääntext-embedding-ada-002gpt-35-turboversio0613tai uudempi, nimeltäängpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 tai uudempi
Seuraavat ympäristömuuttujat ovat pakollisia YouTube-tekstitysdatan valmisteluskriptien suorittamiseen.
Suosittelemme lisäämään muuttujat käyttäjän ympäristömuuttujiin.
Windowsin Käynnistä > Muokkaa järjestelmän ympäristömuuttujia > Ympäristömuuttujat > Käyttäjämuuttujat kohdalla [USER] > Uusi.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Suosittelemme lisäämään seuraavat export-komennot tiedostoon ~/.bashrc tai ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Asenna git-asiakasohjelma, jos sitä ei ole jo asennettu.
-
Avaa
Terminal-ikkuna ja kloonaa esimerkkikansio haluamaasi repositorioon.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Siirry
data_prep-kansioon.cd semanic-search-openai-embeddings-functions/src/data_prep -
Luo Python-virtuaaliympäristö.
Windowsilla:
python -m venv .venvmacOS:llä ja Linuxilla:
python3 -m venv .venv
-
Aktivoi Python-virtuaaliympäristö.
Windowsilla:
.venv\Scripts\activate
macOS:llä ja Linuxilla:
source .venv/bin/activate -
Asenna tarvittavat kirjastot.
Windowsilla:
pip install -r requirements.txtmacOS:llä ja Linuxilla:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shVastuuvapauslauseke:
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, huomioithan, että automaattikäännöksissä saattaa esiintyä virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulee pitää virallisena lähteenä. Tärkeissä tiedoissa suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa tämän käännöksen käytöstä aiheutuvista väärinymmärryksistä tai tulkinnoista.