トランスクリプションデータ準備スクリプトは、YouTube動画のトランスクリプトをダウンロードし、Semantic Search with OpenAI Embeddings and Functionsサンプルで使用できるように準備します。
トランスクリプションデータ準備スクリプトは、最新リリースのWindows 11、macOS Ventura、Ubuntu 22.04(以上)でテストされています。
Important
OpenAIとの互換性を確保するためにAzure CLIを最新バージョンに更新することをお勧めします。 Documentationを参照してください。
- リソースグループを作成する
Note
これらの指示では、East USにある「semantic-video-search」という名前のリソースグループを使用しています。 リソースグループの名前を変更することはできますが、リソースの場所を変更する際には、 モデルの利用可能性表を確認してください。
az group create --name semantic-video-search --location eastus- Azure OpenAI Serviceリソースを作成する。
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- このアプリケーションで使用するためのエンドポイントとキーを取得する
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- 以下のモデルをデプロイする:
text-embedding-ada-002version2or greater, namedtext-embedding-ada-002gpt-35-turboversion0613or greater, namedgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"YouTubeトランスクリプションデータ準備スクリプトを実行するために、以下の環境変数が必要です。
変数をuser environment variables.
Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > Newに追加することをお勧めします。
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
以下のエクスポートを~/.bashrc or ~/.zshrcファイルに追加することをお勧めします。
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
git clientをまだインストールしていない場合はインストールします。
-
Terminalウィンドウから、サンプルを希望するリポジトリフォルダにクローンします。git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
data_prepフォルダに移動します。cd semanic-search-openai-embeddings-functions/src/data_prep -
Python仮想環境を作成します。
Windowsの場合:
python -m venv .venvmacOSとLinuxの場合:
python3 -m venv .venv
-
Python仮想環境を有効にします。
Windowsの場合:
.venv\Scripts\activate
macOSとLinuxの場合:
source .venv/bin/activate -
必要なライブラリをインストールします。
Windowsの場合:
pip install -r requirements.txtmacOSとLinuxの場合:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.sh免責事項: この文書はAI翻訳サービスCo-op Translatorを使用して翻訳されています。正確さを追求していますが、自動翻訳には誤りや不正確さが含まれる可能性があることをご承知おきください。元の言語で書かれた文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳をお勧めします。この翻訳の使用に起因する誤解や誤った解釈については、責任を負いません。