Skrip persediaan data transkripsi memuat turun transkrip video YouTube dan mempersiapkannya untuk digunakan dengan Pencarian Semantik dengan OpenAI Embeddings dan contoh Fungsi.
Skrip persediaan data transkripsi telah diuji pada versi terbaru Windows 11, macOS Ventura dan Ubuntu 22.04 (dan ke atas).
Important
Kami menyarankan anda mengemas kini Azure CLI kepada versi terkini untuk memastikan keserasian dengan OpenAI Lihat Dokumentasi
- Cipta kumpulan sumber
Note
Untuk arahan ini kami menggunakan kumpulan sumber bernama "semantic-video-search" di East US. Anda boleh menukar nama kumpulan sumber, tetapi apabila menukar lokasi untuk sumber, periksa jadual ketersediaan model.
az group create --name semantic-video-search --location eastus- Cipta sumber Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Dapatkan titik akhir dan kunci untuk digunakan dalam aplikasi ini
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Sediakan model berikut:
text-embedding-ada-002version2or greater, namedtext-embedding-ada-002gpt-35-turboversion0613or greater, namedgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 atau lebih tinggi
Pembolehubah persekitaran berikut diperlukan untuk menjalankan skrip persediaan data transkripsi YouTube.
Disarankan menambah pembolehubah kepada user environment variables.
Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Disarankan menambah eksport berikut kepada fail ~/.bashrc or ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Pasang klien git jika belum dipasang.
-
Dari tingkap
Terminal, klon sampel ke folder repo pilihan anda.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Pergi ke folder
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Cipta persekitaran maya Python.
Pada Windows:
python -m venv .venvPada macOS dan Linux:
python3 -m venv .venv
-
Aktifkan persekitaran maya Python.
Pada Windows:
.venv\Scripts\activate
Pada macOS dan Linux:
source .venv/bin/activate -
Pasang perpustakaan yang diperlukan.
Pada Windows:
pip install -r requirements.txtPada macOS dan Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shPenafian: Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat kritikal, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.