Transkripsiyon veri hazırlama betikleri, YouTube video transkriptlerini indirir ve bunları OpenAI Embeddings ve Fonksiyonları ile Semantik Arama örneğinde kullanıma hazırlar.
Transkripsiyon veri hazırlama betikleri, Windows 11, macOS Ventura ve Ubuntu 22.04 (ve üzeri) en son sürümlerinde test edilmiştir.
Important
Uyumluluğu sağlamak için Azure CLI'yi en son sürüme güncellemenizi öneririz Detaylar için Dokümantasyon sayfasına bakabilirsiniz
- Bir kaynak grubu oluşturun
Note
Bu talimatlarda "semantic-video-search" adlı kaynak grubunu East US bölgesinde kullanıyoruz. Kaynak grubunun adını değiştirebilirsiniz, ancak kaynakların konumunu değiştirirken model kullanılabilirlik tablosunu kontrol edin.
az group create --name semantic-video-search --location eastus- Bir Azure OpenAI Hizmeti kaynağı oluşturun.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Bu uygulamada kullanmak üzere uç nokta ve anahtarları alın
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Aşağıdaki modelleri dağıtın:
text-embedding-ada-002sürüm2veya üzeri, adıtext-embedding-ada-002gpt-35-turbosürüm0613veya üzeri, adıgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 veya üzeri
YouTube transkripsiyon veri hazırlama betiklerini çalıştırmak için aşağıdaki ortam değişkenleri gereklidir.
Değişkenleri user ortam değişkenlerinize eklemeniz önerilir.
Windows Başlat > Sistem ortam değişkenlerini düzenle > Ortam Değişkenleri > [USER] için Kullanıcı değişkenleri > Yeni.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Aşağıdaki export komutlarını ~/.bashrc veya ~/.zshrc dosyanıza eklemeniz önerilir.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Eğer yüklü değilse git istemcisini yükleyin.
-
Bir
Terminalpenceresinden örneği tercih ettiğiniz depo klasörüne klonlayın.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
data_prepklasörüne gidin.cd semanic-search-openai-embeddings-functions/src/data_prep -
Bir Python sanal ortamı oluşturun.
Windows üzerinde:
python -m venv .venvmacOS ve Linux üzerinde:
python3 -m venv .venv
-
Python sanal ortamını etkinleştirin.
Windows üzerinde:
.venv\Scripts\activate
macOS ve Linux üzerinde:
source .venv/bin/activate -
Gerekli kütüphaneleri yükleyin.
Windows üzerinde:
pip install -r requirements.txtmacOS ve Linux üzerinde:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shFeragatname:
Bu belge, AI çeviri servisi Co-op Translator kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hatalar veya yanlışlıklar içerebileceğini lütfen unutmayın. Orijinal belge, kendi dilinde yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımı sonucu oluşabilecek yanlış anlamalar veya yorum hatalarından sorumlu değiliz.