전사 데이터 준비

전사 데이터 준비 스크립트는 YouTube 비디오 전사를 다운로드하고 OpenAI 임베딩 및 함수 샘플을 사용한 의미 검색에 사용하도록 준비합니다.

전사 데이터 준비 스크립트는 최신 릴리스인 Windows 11, macOS Ventura 및 Ubuntu 22.04(이상)에서 테스트되었습니다.

필요한 Azure OpenAI 서비스 리소스 생성

Important

OpenAI와의 호환성을 보장하기 위해 Azure CLI를 최신 버전으로 업데이트할 것을 권장합니다. 문서를 참조하세요.

리소스 그룹 생성

Note

이 지침에서는 동부 미국에 "semantic-video-search"라는 리소스 그룹을 사용하고 있습니다. 리소스 그룹의 이름을 변경할 수 있지만, 리소스의 위치를 변경할 때는 모델 가용성 표를 확인하세요.

az group create --name semantic-video-search --location eastus

Azure OpenAI 서비스 리소스를 생성합니다.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

이 애플리케이션에서 사용하기 위한 엔드포인트와 키를 가져옵니다.

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

다음 모델을 배포합니다:
- text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
- gpt-35-turbo version 0613 or greater, named gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

필요한 소프트웨어

Python 3.9 이상

환경 변수

YouTube 전사 데이터 준비 스크립트를 실행하기 위해 다음 환경 변수가 필요합니다.

Windows에서

변수를 user environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New에 추가할 것을 권장합니다.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

Linux 및 macOS에서

다음 내보내기를 ~/.bashrc or ~/.zshrc 파일에 추가할 것을 권장합니다.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

필요한 Python 라이브러리 설치

git 클라이언트를 설치하지 않았다면 설치합니다.

Terminal 창에서 샘플을 원하는 저장소 폴더로 클론합니다.

git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git

data_prep 폴더로 이동합니다.

cd semanic-search-openai-embeddings-functions/src/data_prep

Python 가상 환경을 생성합니다.

Windows에서:
```
python -m venv .venv
```
macOS 및 Linux에서:
```
python3 -m venv .venv
```
Python 가상 환경을 활성화합니다.

Windows에서:
```
.venv\Scripts\activate
```
macOS 및 Linux에서:
```
source .venv/bin/activate
```
필요한 라이브러리를 설치합니다.

Windows에서:
```
pip install -r requirements.txt
```
macOS 및 Linux에서:
```
pip3 install -r requirements.txt
```

YouTube 전사 데이터 준비 스크립트 실행

Windows에서

.\transcripts_prepare.ps1

macOS 및 Linux에서

./transcripts_prepare.sh

면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 우리는 정확성을 위해 노력하지만, 자동 번역에는 오류나 부정확성이 있을 수 있음을 유의하시기 바랍니다. 원본 문서는 해당 언어로 작성된 문서를 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역을 사용함으로써 발생하는 오해나 잘못된 해석에 대해서는 책임을 지지 않습니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

전사 데이터 준비

필요한 Azure OpenAI 서비스 리소스 생성

필요한 소프트웨어

환경 변수

Windows에서

Linux 및 macOS에서

필요한 Python 라이브러리 설치

YouTube 전사 데이터 준비 스크립트 실행

Windows에서

macOS 및 Linux에서

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

전사 데이터 준비

필요한 Azure OpenAI 서비스 리소스 생성

필요한 소프트웨어

환경 변수

Windows에서

Linux 및 macOS에서

필요한 Python 라이브러리 설치

YouTube 전사 데이터 준비 스크립트 실행

Windows에서

macOS 및 Linux에서