Transkripsiyon veri hazırlık betikleri, YouTube video transkriptlerini indirir ve bunları OpenAI Embeddings ve Functions örneği ile Semantik Arama için kullanıma hazırlar.
Transkripsiyon veri hazırlık betikleri, en son Windows 11, macOS Ventura ve Ubuntu 22.04 (ve üzeri) sürümlerinde test edilmiştir.
Important
OpenAI ile uyumluluğu sağlamak için Azure CLI'yi en son sürüme güncellemenizi öneririz Belgeler adresine bakın
- Bir kaynak grubu oluşturun
Note
Bu talimatlar için Doğu ABD'de "semantic-video-search" adlı kaynak grubunu kullanıyoruz. Kaynak grubunun adını değiştirebilirsiniz, ancak kaynakların konumunu değiştirirken model kullanılabilirlik tablosunu kontrol edin.
az group create --name semantic-video-search --location eastus- Bir Azure OpenAI Hizmet kaynağı oluşturun.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Bu uygulamada kullanım için uç noktayı ve anahtarları alın
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Aşağıdaki modelleri dağıtın:
text-embedding-ada-002version2or greater, namedtext-embedding-ada-002gpt-35-turboversion0613or greater, namedgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 veya üzeri
YouTube transkripsiyon veri hazırlık betiklerini çalıştırmak için aşağıdaki ortam değişkenleri gereklidir.
Değişkenleri user environment variables.
Windows Başlat > Sistem ortam değişkenlerini düzenle > Ortam Değişkenleri > Kullanıcı değişkenleri for [USER] > Yeni kısmına eklemenizi öneririz.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Aşağıdaki değişkenleri ~/.bashrc or ~/.zshrc dosyanıza eklemenizi öneririz.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Git istemcisi yüklü değilse yükleyin.
-
Terminalpenceresinden, örneği tercih ettiğiniz depo klasörüne klonlayın.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
data_prepklasörüne gidin.cd semanic-search-openai-embeddings-functions/src/data_prep -
Bir Python sanal ortamı oluşturun.
Windows'ta:
python -m venv .venvmacOS ve Linux'ta:
python3 -m venv .venv
-
Python sanal ortamını etkinleştirin.
Windows'ta:
.venv\Scripts\activate
macOS ve Linux'ta:
source .venv/bin/activate -
Gerekli kütüphaneleri yükleyin.
Windows'ta:
pip install -r requirements.txtmacOS ve Linux'ta:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shFeragatname:
Bu belge, AI çeviri hizmeti Co-op Translator kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayın. Belgenin orijinal dilindeki hali yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlaşılmalar veya yanlış yorumlamalardan sorumlu değiliz.