Các script chuẩn bị dữ liệu phiên âm tải xuống bản ghi video YouTube và chuẩn bị chúng để sử dụng với mẫu Semantic Search với OpenAI Embeddings và Functions.
Các script chuẩn bị dữ liệu phiên âm đã được kiểm tra trên các phiên bản mới nhất của Windows 11, macOS Ventura và Ubuntu 22.04 (và các phiên bản mới hơn).
Important
Chúng tôi khuyên bạn nên cập nhật Azure CLI lên phiên bản mới nhất để đảm bảo tương thích với OpenAI Xem Tài liệu
- Tạo một nhóm tài nguyên
Note
Trong hướng dẫn này, chúng tôi sử dụng nhóm tài nguyên có tên "semantic-video-search" ở khu vực East US. Bạn có thể thay đổi tên nhóm tài nguyên, nhưng khi thay đổi vị trí cho các tài nguyên, hãy kiểm tra bảng khả dụng mô hình.
az group create --name semantic-video-search --location eastus- Tạo một tài nguyên Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- Lấy endpoint và khóa để sử dụng trong ứng dụng này
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- Triển khai các mô hình sau:
text-embedding-ada-002phiên bản2trở lên, đặt tên làtext-embedding-ada-002gpt-35-turbophiên bản0613trở lên, đặt tên làgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 hoặc mới hơn
Các biến môi trường sau đây là bắt buộc để chạy các script chuẩn bị dữ liệu phiên âm YouTube.
Khuyến nghị thêm các biến vào biến môi trường user của bạn.
Windows Start > Edit the system environment variables > Environment Variables > User variables cho [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
Khuyến nghị thêm các lệnh export sau vào file ~/.bashrc hoặc ~/.zshrc của bạn.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
Cài đặt git client nếu bạn chưa có.
-
Từ cửa sổ
Terminal, clone mẫu về thư mục repo bạn muốn.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
Điều hướng đến thư mục
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
Tạo môi trường ảo Python.
Trên Windows:
python -m venv .venvTrên macOS và Linux:
python3 -m venv .venv
-
Kích hoạt môi trường ảo Python.
Trên Windows:
.venv\Scripts\activate
Trên macOS và Linux:
source .venv/bin/activate -
Cài đặt các thư viện cần thiết.
Trên Windows:
pip install -r requirements.txtTrên macOS và Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shTuyên bố từ chối trách nhiệm:
Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI Co-op Translator. Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ gốc của nó nên được coi là nguồn chính xác và đáng tin cậy. Đối với các thông tin quan trọng, nên sử dụng dịch vụ dịch thuật chuyên nghiệp do con người thực hiện. Chúng tôi không chịu trách nhiệm về bất kỳ sự hiểu lầm hoặc giải thích sai nào phát sinh từ việc sử dụng bản dịch này.