Skip to content

Latest commit

 

History

History
176 lines (127 loc) · 6.26 KB

File metadata and controls

176 lines (127 loc) · 6.26 KB

トランスクリプションデータ準備

トランスクリプションデータ準備スクリプトは、YouTube動画のトランスクリプトをダウンロードし、Semantic Search with OpenAI Embeddings and Functionsサンプルで使用できるように準備します。

トランスクリプションデータ準備スクリプトは、最新リリースのWindows 11、macOS Ventura、Ubuntu 22.04(以上)でテストされています。

必要なAzure OpenAI Serviceリソースの作成

Important

OpenAIとの互換性を確保するためにAzure CLIを最新バージョンに更新することをお勧めします。 Documentationを参照してください。

  1. リソースグループを作成する

Note

これらの指示では、East USにある「semantic-video-search」という名前のリソースグループを使用しています。 リソースグループの名前を変更することはできますが、リソースの場所を変更する際には、 モデルの利用可能性表を確認してください。

az group create --name semantic-video-search --location eastus
  1. Azure OpenAI Serviceリソースを作成する。
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. このアプリケーションで使用するためのエンドポイントとキーを取得する
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. 以下のモデルをデプロイする:
    • text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
    • gpt-35-turbo version 0613 or greater, named gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

必要なソフトウェア

環境変数

YouTubeトランスクリプションデータ準備スクリプトを実行するために、以下の環境変数が必要です。

Windowsの場合

変数をuser environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > Newに追加することをお勧めします。

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

LinuxとmacOSの場合

以下のエクスポートを~/.bashrc or ~/.zshrcファイルに追加することをお勧めします。

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

必要なPythonライブラリのインストール

  1. git clientをまだインストールしていない場合はインストールします。

  2. Terminalウィンドウから、サンプルを希望するリポジトリフォルダにクローンします。

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. data_prepフォルダに移動します。

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Python仮想環境を作成します。

    Windowsの場合:

    python -m venv .venv

    macOSとLinuxの場合:

    python3 -m venv .venv
  5. Python仮想環境を有効にします。

    Windowsの場合:

    .venv\Scripts\activate

    macOSとLinuxの場合:

    source .venv/bin/activate
  6. 必要なライブラリをインストールします。

    Windowsの場合:

    pip install -r requirements.txt

    macOSとLinuxの場合:

    pip3 install -r requirements.txt

YouTubeトランスクリプションデータ準備スクリプトを実行する

Windowsの場合

.\transcripts_prepare.ps1

macOSとLinuxの場合

./transcripts_prepare.sh

免責事項: この文書はAI翻訳サービスCo-op Translatorを使用して翻訳されています。正確さを追求していますが、自動翻訳には誤りや不正確さが含まれる可能性があることをご承知おきください。元の言語で書かれた文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳をお勧めします。この翻訳の使用に起因する誤解や誤った解釈については、責任を負いません。