Skip to content

Latest commit

 

History

History
176 lines (127 loc) · 5.66 KB

File metadata and controls

176 lines (127 loc) · 5.66 KB

Transkripsiyon veri hazırlığı

Transkripsiyon veri hazırlık betikleri, YouTube video transkriptlerini indirir ve bunları OpenAI Embeddings ve Functions örneği ile Semantik Arama için kullanıma hazırlar.

Transkripsiyon veri hazırlık betikleri, en son Windows 11, macOS Ventura ve Ubuntu 22.04 (ve üzeri) sürümlerinde test edilmiştir.

Gerekli Azure OpenAI Hizmet kaynaklarını oluşturun

Important

OpenAI ile uyumluluğu sağlamak için Azure CLI'yi en son sürüme güncellemenizi öneririz Belgeler adresine bakın

  1. Bir kaynak grubu oluşturun

Note

Bu talimatlar için Doğu ABD'de "semantic-video-search" adlı kaynak grubunu kullanıyoruz. Kaynak grubunun adını değiştirebilirsiniz, ancak kaynakların konumunu değiştirirken model kullanılabilirlik tablosunu kontrol edin.

az group create --name semantic-video-search --location eastus
  1. Bir Azure OpenAI Hizmet kaynağı oluşturun.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Bu uygulamada kullanım için uç noktayı ve anahtarları alın
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Aşağıdaki modelleri dağıtın:
    • text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
    • gpt-35-turbo version 0613 or greater, named gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Gerekli yazılım

Ortam değişkenleri

YouTube transkripsiyon veri hazırlık betiklerini çalıştırmak için aşağıdaki ortam değişkenleri gereklidir.

Windows'ta

Değişkenleri user environment variables. Windows Başlat > Sistem ortam değişkenlerini düzenle > Ortam Değişkenleri > Kullanıcı değişkenleri for [USER] > Yeni kısmına eklemenizi öneririz.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Linux ve macOS'ta

Aşağıdaki değişkenleri ~/.bashrc or ~/.zshrc dosyanıza eklemenizi öneririz.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Gerekli Python kütüphanelerini yükleyin

  1. Git istemcisi yüklü değilse yükleyin.

  2. Terminal penceresinden, örneği tercih ettiğiniz depo klasörüne klonlayın.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. data_prep klasörüne gidin.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Bir Python sanal ortamı oluşturun.

    Windows'ta:

    python -m venv .venv

    macOS ve Linux'ta:

    python3 -m venv .venv
  5. Python sanal ortamını etkinleştirin.

    Windows'ta:

    .venv\Scripts\activate

    macOS ve Linux'ta:

    source .venv/bin/activate
  6. Gerekli kütüphaneleri yükleyin.

    Windows'ta:

    pip install -r requirements.txt

    macOS ve Linux'ta:

    pip3 install -r requirements.txt

YouTube transkripsiyon veri hazırlık betiklerini çalıştırın

Windows'ta

.\transcripts_prepare.ps1

macOS ve Linux'ta

./transcripts_prepare.sh

Feragatname:
Bu belge, AI çeviri hizmeti Co-op Translator kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayın. Belgenin orijinal dilindeki hali yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlaşılmalar veya yanlış yorumlamalardan sorumlu değiliz.