Ang mga script para sa paghahanda ng datos ng transkripsyon ay nagda-download ng mga transcript ng video mula sa YouTube at inihahanda ang mga ito para magamit sa Semantic Search gamit ang OpenAI Embeddings at Functions sample.
Nasubukan ang mga script para sa paghahanda ng datos ng transkripsyon sa pinakabagong mga bersyon ng Windows 11, macOS Ventura, at Ubuntu 22.04 (at pataas).
Important
Inirerekomenda naming i-update mo ang Azure CLI sa pinakabagong bersyon upang matiyak ang pagiging compatible sa OpenAI Tingnan ang Documentation
- Gumawa ng resource group
Note
Sa mga tagubiling ito, ginagamit namin ang resource group na pinangalanang "semantic-video-search" sa East US. Maaari mong palitan ang pangalan ng resource group, ngunit kapag pinalitan ang lokasyon ng mga resources, tingnan ang model availability table.
az group create --name semantic-video-search --location eastus- Gumawa ng Azure OpenAI Service resource.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Kunin ang endpoint at mga susi para magamit sa application na ito
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- I-deploy ang mga sumusunod na modelo:
text-embedding-ada-002bersyon2o mas mataas, na pinangalanangtext-embedding-ada-002gpt-35-turbobersyon0613o mas mataas, na pinangalananggpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 o mas mataas
Kinakailangan ang mga sumusunod na environment variable para mapatakbo ang mga script ng YouTube transcription data prep.
Inirerekomenda na idagdag ang mga variable sa iyong user environment variables.
Windows Start > Edit the system environment variables > Environment Variables > User variables para sa [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Inirerekomenda na idagdag ang mga sumusunod na export sa iyong ~/.bashrc o ~/.zshrc na file.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
I-install ang git client kung hindi pa ito naka-install.
-
Mula sa isang
Terminalwindow, i-clone ang sample sa iyong nais na folder ng repo.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Pumunta sa
data_prepna folder.cd semanic-search-openai-embeddings-functions/src/data_prep -
Gumawa ng Python virtual environment.
Sa Windows:
python -m venv .venvSa macOS at Linux:
python3 -m venv .venv
-
I-activate ang Python virtual environment.
Sa Windows:
.venv\Scripts\activate
Sa macOS at Linux:
source .venv/bin/activate -
I-install ang mga kinakailangang library.
Sa Windows:
pip install -r requirements.txtSa macOS at Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shPaalala:
Ang dokumentong ito ay isinalin gamit ang AI translation service na Co-op Translator. Bagamat nagsusumikap kami para sa katumpakan, pakatandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o di-tumpak na impormasyon. Ang orihinal na dokumento sa orihinal nitong wika ang dapat ituring na pangunahing sanggunian. Para sa mahahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na maaaring magmula sa paggamit ng pagsasaling ito.