اسکریپتهای آمادهسازی دادههای رونویسی، متنهای ویدیوهای یوتیوب را دانلود کرده و برای استفاده در نمونه جستجوی معنایی با OpenAI Embeddings و Functions آماده میکنند.
این اسکریپتها روی آخرین نسخههای ویندوز ۱۱، macOS Ventura و اوبونتو ۲۲.۰۴ (و بالاتر) تست شدهاند.
Important
پیشنهاد میکنیم Azure CLI را به آخرین نسخه بهروزرسانی کنید تا از سازگاری با OpenAI اطمینان حاصل شود به مستندات مراجعه کنید
- یک گروه منبع ایجاد کنید
Note
در این دستورالعملها از گروه منبعی به نام "semantic-video-search" در منطقه East US استفاده میکنیم. میتوانید نام گروه منبع را تغییر دهید، اما هنگام تغییر مکان منابع، جدول دسترسی مدلها را بررسی کنید.
az group create --name semantic-video-search --location eastus- یک منبع سرویس Azure OpenAI ایجاد کنید.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- نقطه پایان و کلیدهای لازم برای استفاده در این برنامه را دریافت کنید
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- مدلهای زیر را مستقر کنید:
- نسخه
2یا بالاتر ازtext-embedding-ada-002با نامtext-embedding-ada-002 - نسخه
0613یا بالاتر ازgpt-35-turboبا نامgpt-35-turbo
- نسخه
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 یا بالاتر
برای اجرای اسکریپتهای آمادهسازی دادههای رونویسی یوتیوب، متغیرهای محیطی زیر لازم است.
توصیه میشود متغیرها را به متغیرهای محیطی user خود اضافه کنید.
Windows Start > Edit the system environment variables > Environment Variables > User variables برای [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
توصیه میشود موارد زیر را به فایل ~/.bashrc یا ~/.zshrc خود اضافه کنید.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
اگر کلاینت git نصب نیست، آن را نصب کنید.
-
از پنجره
Terminal، نمونه را در پوشه مخزن مورد نظر خود کلون کنید.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
به پوشه
data_prepبروید.cd semanic-search-openai-embeddings-functions/src/data_prep -
یک محیط مجازی پایتون بسازید.
در ویندوز:
python -m venv .venvدر macOS و لینوکس:
python3 -m venv .venv
-
محیط مجازی پایتون را فعال کنید.
در ویندوز:
.venv\Scripts\activate
در macOS و لینوکس:
source .venv/bin/activate -
کتابخانههای مورد نیاز را نصب کنید.
در ویندوز:
pip install -r requirements.txtدر macOS و لینوکس:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shسلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما در تلاش برای دقت هستیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است حاوی خطاها یا نواقصی باشند. سند اصلی به زبان بومی خود باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، ترجمه حرفهای انسانی توصیه میشود. ما مسئول هیچ گونه سوءتفاهم یا تفسیر نادرستی که از استفاده از این ترجمه ناشی شود، نیستیم.