تيار البيانات لتحضير النسخ

تنزل سكريبتات تحضير بيانات النسخ نصوص فيديوهات يوتيوب وتجهزها للاستخدام مع مثال البحث الدلالي باستخدام OpenAI Embeddings وFunctions.

تم اختبار سكريبتات تحضير بيانات النسخ على أحدث الإصدارات من Windows 11 وmacOS Ventura وUbuntu 22.04 (وما فوقها).

إنشاء الموارد المطلوبة لخدمة Azure OpenAI

Important

نوصي بتحديث Azure CLI إلى أحدث إصدار لضمان التوافق مع OpenAI انظر التوثيق

إنشاء مجموعة موارد

Note

في هذه التعليمات نستخدم مجموعة الموارد المسماة "semantic-video-search" في شرق الولايات المتحدة. يمكنك تغيير اسم مجموعة الموارد، ولكن عند تغيير موقع الموارد، تحقق من جدول توافر النموذج.

az group create --name semantic-video-search --location eastus

إنشاء مورد لخدمة Azure OpenAI.

az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0

احصل على نقطة النهاية والمفاتيح لاستخدامها في هذا التطبيق

az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1

انشر النماذج التالية:
- text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
- gpt-35-turbo version 0613 or greater, named gpt-35-turbo

az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

البرامج المطلوبة

Python 3.9 أو أحدث

متغيرات البيئة

تتطلب سكريبتات تحضير بيانات نسخ يوتيوب المتغيرات البيئية التالية.

على Windows

نوصي بإضافة المتغيرات إلى user environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

على Linux وmacOS

نوصي بإضافة التصديرات التالية إلى ملف ~/.bashrc or ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

تثبيت مكتبات بايثون المطلوبة

قم بتثبيت عميل git إذا لم يكن مثبتًا بالفعل.
من نافذة Terminal، استنسخ المثال إلى مجلد المستودع المفضل لديك.
```
git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
```

انتقل إلى مجلد data_prep.

cd semanic-search-openai-embeddings-functions/src/data_prep

إنشاء بيئة افتراضية لبايثون.

على Windows:
```
python -m venv .venv
```
على macOS وLinux:
```
python3 -m venv .venv
```
تفعيل البيئة الافتراضية لبايثون.

على Windows:
```
.venv\Scripts\activate
```
على macOS وLinux:
```
source .venv/bin/activate
```
تثبيت المكتبات المطلوبة.

على windows:
```
pip install -r requirements.txt
```
على macOS وLinux:
```
pip3 install -r requirements.txt
```

تشغيل سكريبتات تحضير بيانات نسخ يوتيوب

على windows

.\transcripts_prepare.ps1

على macOS وLinux

./transcripts_prepare.sh

Omejitev odgovornosti: Ta dokument je bil preveden z uporabo storitve AI za prevajanje Co-op Translator. Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem maternem jeziku bi moral biti obravnavan kot avtoritativni vir. Za ključne informacije se priporoča profesionalni človeški prevod. Ne odgovarjamo za morebitne nesporazume ali napačne interpretacije, ki bi nastale zaradi uporabe tega prevoda.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

تيار البيانات لتحضير النسخ

إنشاء الموارد المطلوبة لخدمة Azure OpenAI

البرامج المطلوبة

متغيرات البيئة

على Windows

على Linux وmacOS

تثبيت مكتبات بايثون المطلوبة

تشغيل سكريبتات تحضير بيانات نسخ يوتيوب

على windows

على macOS وLinux

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

تيار البيانات لتحضير النسخ

إنشاء الموارد المطلوبة لخدمة Azure OpenAI

البرامج المطلوبة

متغيرات البيئة

على Windows

على Linux وmacOS

تثبيت مكتبات بايثون المطلوبة

تشغيل سكريبتات تحضير بيانات نسخ يوتيوب

على windows

على macOS وLinux