전사 데이터 준비 스크립트는 YouTube 동영상 자막을 다운로드하고, OpenAI 임베딩 및 함수와 함께 사용하는 시맨틱 검색 샘플에 맞게 준비합니다.
전사 데이터 준비 스크립트는 최신 Windows 11, macOS Ventura, Ubuntu 22.04 이상 버전에서 테스트되었습니다.
Important
OpenAI와의 호환성을 위해 Azure CLI를 최신 버전으로 업데이트할 것을 권장합니다. 자세한 내용은 문서를 참고하세요.
- 리소스 그룹 생성
Note
이 지침에서는 East US 지역에 "semantic-video-search"라는 이름의 리소스 그룹을 사용합니다. 리소스 그룹 이름은 변경할 수 있지만, 리소스 위치를 변경할 경우 모델 가용성 표를 확인하세요.
az group create --name semantic-video-search --location eastus- Azure OpenAI 서비스 리소스를 생성합니다.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- 이 애플리케이션에서 사용할 엔드포인트와 키를 가져옵니다.
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- 다음 모델을 배포합니다:
text-embedding-ada-002버전2이상, 이름은text-embedding-ada-002gpt-35-turbo버전0613이상, 이름은gpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 이상
YouTube 전사 데이터 준비 스크립트를 실행하려면 다음 환경 변수가 필요합니다.
user 환경 변수에 추가하는 것을 권장합니다.
Windows 시작 > 시스템 환경 변수 편집 > 환경 변수 > [사용자]의 사용자 변수 > 새로 만들기
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
다음 export 구문을 ~/.bashrc 또는 ~/.zshrc 파일에 추가하는 것을 권장합니다.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
git 클라이언트가 설치되어 있지 않다면 설치하세요.
-
터미널창에서 샘플을 원하는 저장소 폴더로 클론합니다.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
data_prep폴더로 이동합니다.cd semanic-search-openai-embeddings-functions/src/data_prep -
Python 가상 환경을 생성합니다.
Windows에서:
python -m venv .venvmacOS 및 Linux에서:
python3 -m venv .venv
-
Python 가상 환경을 활성화합니다.
Windows에서:
.venv\Scripts\activate
macOS 및 Linux에서:
source .venv/bin/activate -
필요한 라이브러리를 설치합니다.
Windows에서:
pip install -r requirements.txtmacOS 및 Linux에서:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.sh면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확한 부분이 있을 수 있음을 유의해 주시기 바랍니다. 원문은 해당 언어의 원본 문서가 권위 있는 자료로 간주되어야 합니다. 중요한 정보의 경우 전문적인 인간 번역을 권장합니다. 본 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.