Skrip persiapan data transkripsi mengunduh transkrip video YouTube dan menyiapkannya untuk digunakan dengan contoh Semantic Search dengan OpenAI Embeddings dan Functions.
Skrip persiapan data transkripsi telah diuji pada rilis terbaru Windows 11, macOS Ventura, dan Ubuntu 22.04 (dan versi lebih baru).
Important
Kami menyarankan Anda memperbarui Azure CLI ke versi terbaru untuk memastikan kompatibilitas dengan OpenAI Lihat Dokumentasi
- Buat resource group
Note
Untuk petunjuk ini kami menggunakan resource group bernama "semantic-video-search" di East US. Anda dapat mengubah nama resource group, tetapi saat mengubah lokasi sumber daya, periksa tabel ketersediaan model.
az group create --name semantic-video-search --location eastus- Buat sumber daya Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Dapatkan endpoint dan kunci untuk digunakan dalam aplikasi ini
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Deploy model berikut:
text-embedding-ada-002versi2atau lebih tinggi, dengan namatext-embedding-ada-002gpt-35-turboversi0613atau lebih tinggi, dengan namagpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 atau versi lebih baru
Variabel lingkungan berikut diperlukan untuk menjalankan skrip persiapan data transkripsi YouTube.
Disarankan menambahkan variabel ke variabel lingkungan user Anda.
Windows Start > Edit the system environment variables > Environment Variables > User variables untuk [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Disarankan menambahkan ekspor berikut ke file ~/.bashrc atau ~/.zshrc Anda.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Instal git client jika belum terpasang.
-
Dari jendela
Terminal, clone contoh ini ke folder repo pilihan Anda.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Masuk ke folder
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Buat virtual environment Python.
Di Windows:
python -m venv .venvDi macOS dan Linux:
python3 -m venv .venv
-
Aktifkan virtual environment Python.
Di Windows:
.venv\Scripts\activate
Di macOS dan Linux:
source .venv/bin/activate -
Instal pustaka yang dibutuhkan.
Di Windows:
pip install -r requirements.txtDi macOS dan Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shPenafian:
Dokumen ini telah diterjemahkan menggunakan layanan terjemahan AI Co-op Translator. Meskipun kami berupaya untuk mencapai akurasi, harap diketahui bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang sahih. Untuk informasi penting, disarankan menggunakan terjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.