Skip to content

Latest commit

 

History

History
176 lines (127 loc) · 5.6 KB

File metadata and controls

176 lines (127 loc) · 5.6 KB

Persediaan Data Transkripsi

Skrip persediaan data transkripsi memuat turun transkrip video YouTube dan mempersiapkannya untuk digunakan dengan Pencarian Semantik dengan OpenAI Embeddings dan contoh Fungsi.

Skrip persediaan data transkripsi telah diuji pada versi terbaru Windows 11, macOS Ventura dan Ubuntu 22.04 (dan ke atas).

Cipta sumber Azure OpenAI Service yang diperlukan

Important

Kami menyarankan anda mengemas kini Azure CLI kepada versi terkini untuk memastikan keserasian dengan OpenAI Lihat Dokumentasi

  1. Cipta kumpulan sumber

Note

Untuk arahan ini kami menggunakan kumpulan sumber bernama "semantic-video-search" di East US. Anda boleh menukar nama kumpulan sumber, tetapi apabila menukar lokasi untuk sumber, periksa jadual ketersediaan model.

az group create --name semantic-video-search --location eastus
  1. Cipta sumber Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. Dapatkan titik akhir dan kunci untuk digunakan dalam aplikasi ini
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. Sediakan model berikut:
    • text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
    • gpt-35-turbo version 0613 or greater, named gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

Perisian yang diperlukan

Pembolehubah persekitaran

Pembolehubah persekitaran berikut diperlukan untuk menjalankan skrip persediaan data transkripsi YouTube.

Pada Windows

Disarankan menambah pembolehubah kepada user environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Pada Linux dan macOS

Disarankan menambah eksport berikut kepada fail ~/.bashrc or ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

Pasang perpustakaan Python yang diperlukan

  1. Pasang klien git jika belum dipasang.

  2. Dari tingkap Terminal, klon sampel ke folder repo pilihan anda.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. Pergi ke folder data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Cipta persekitaran maya Python.

    Pada Windows:

    python -m venv .venv

    Pada macOS dan Linux:

    python3 -m venv .venv
  5. Aktifkan persekitaran maya Python.

    Pada Windows:

    .venv\Scripts\activate

    Pada macOS dan Linux:

    source .venv/bin/activate
  6. Pasang perpustakaan yang diperlukan.

    Pada Windows:

    pip install -r requirements.txt

    Pada macOS dan Linux:

    pip3 install -r requirements.txt

Jalankan skrip persediaan data transkripsi YouTube

Pada Windows

.\transcripts_prepare.ps1

Pada macOS dan Linux

./transcripts_prepare.sh

Penafian: Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat kritikal, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.