Skip to content

Latest commit

 

History

History
169 lines (118 loc) · 5.25 KB

File metadata and controls

169 lines (118 loc) · 5.25 KB

Penyediaan data transkripsi

Skrip penyediaan data transkripsi memuat turun transkrip video YouTube dan menyediakan data tersebut untuk digunakan dengan contoh Semantic Search menggunakan OpenAI Embeddings dan Functions.

Skrip penyediaan data transkripsi telah diuji pada versi terkini Windows 11, macOS Ventura dan Ubuntu 22.04 (dan ke atas).

Cipta sumber Azure OpenAI Service yang diperlukan

Important

Kami mengesyorkan anda mengemas kini Azure CLI ke versi terkini untuk memastikan keserasian dengan OpenAI Lihat Dokumentasi

  1. Cipta kumpulan sumber

Note

Untuk arahan ini, kami menggunakan kumpulan sumber bernama "semantic-video-search" di East US. Anda boleh menukar nama kumpulan sumber, tetapi apabila menukar lokasi sumber, semak jadual ketersediaan model.

az group create --name semantic-video-search --location eastus
  1. Cipta sumber Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Dapatkan endpoint dan kunci untuk digunakan dalam aplikasi ini
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Lancarkan model berikut:
    • text-embedding-ada-002 versi 2 atau lebih tinggi, dinamakan text-embedding-ada-002
    • gpt-35-turbo versi 0613 atau lebih tinggi, dinamakan gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Perisian yang diperlukan

Pembolehubah persekitaran

Pembolehubah persekitaran berikut diperlukan untuk menjalankan skrip penyediaan data transkripsi YouTube.

Pada Windows

Disyorkan untuk menambah pembolehubah ini ke pembolehubah persekitaran user anda. Windows Start > Edit the system environment variables > Environment Variables > User variables untuk [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Pada Linux dan macOS

Disyorkan untuk menambah eksport berikut ke dalam fail ~/.bashrc atau ~/.zshrc anda.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Pasang perpustakaan Python yang diperlukan

  1. Pasang git client jika belum dipasang.

  2. Dari tetingkap Terminal, klon contoh ke folder repo pilihan anda.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Pergi ke folder data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Cipta persekitaran maya Python.

    Pada Windows:

    python -m venv .venv

    Pada macOS dan Linux:

    python3 -m venv .venv
  5. Aktifkan persekitaran maya Python.

    Pada Windows:

    .venv\Scripts\activate

    Pada macOS dan Linux:

    source .venv/bin/activate
  6. Pasang perpustakaan yang diperlukan.

    Pada Windows:

    pip install -r requirements.txt

    Pada macOS dan Linux:

    pip3 install -r requirements.txt

Jalankan skrip penyediaan data transkripsi YouTube

Pada Windows

.\transcripts_prepare.ps1

Pada macOS dan Linux

./transcripts_prepare.sh

Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk ketepatan, sila ambil maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang sahih. Untuk maklumat penting, terjemahan profesional oleh manusia adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.