Skip to content

Latest commit

 

History

History
175 lines (126 loc) · 6.27 KB

File metadata and controls

175 lines (126 loc) · 6.27 KB

إعداد بيانات النسخ

تقوم نصوص إعداد بيانات النسخ بتنزيل نصوص فيديوهات يوتيوب وتجهيزها للاستخدام مع البحث الدلالي باستخدام OpenAI Embeddings وFunctions.

تم اختبار نصوص إعداد بيانات النسخ على الإصدارات الأحدث من Windows 11، macOS Ventura، وUbuntu 22.04 (وما فوق).

إنشاء موارد خدمة Azure OpenAI المطلوبة

Important

نقترح تحديث Azure CLI إلى أحدث إصدار لضمان التوافق مع OpenAI انظر Documentation

  1. إنشاء مجموعة موارد

Note

لهذه التعليمات، نستخدم مجموعة الموارد المسماة "semantic-video-search" في شرق الولايات المتحدة. يمكنك تغيير اسم مجموعة الموارد، ولكن عند تغيير موقع الموارد، تحقق من جدول توفر النموذج.

az group create --name semantic-video-search --location eastus
  1. إنشاء مورد خدمة Azure OpenAI.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. الحصول على النقطة النهائية والمفاتيح للاستخدام في هذا التطبيق
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. نشر النماذج التالية:
    • text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
    • gpt-35-turbo version 0613 or greater, named gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

البرامج المطلوبة

متغيرات البيئة

تُطلب متغيرات البيئة التالية لتشغيل نصوص إعداد بيانات النسخ لليوتيوب.

على Windows

ننصح بإضافة المتغيرات إلى user environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

على Linux وmacOS

ننصح بإضافة التصديرات التالية إلى ملف ~/.bashrc or ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

تثبيت مكتبات Python المطلوبة

  1. تثبيت git client إذا لم يكن مثبتًا بالفعل.

  2. من نافذة Terminal، استنساخ النموذج إلى مجلد المستودع المفضل لديك.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. انتقل إلى مجلد data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. إنشاء بيئة Python افتراضية.

    على Windows:

    python -m venv .venv

    على macOS وLinux:

    python3 -m venv .venv
  5. تفعيل بيئة Python الافتراضية.

    على Windows:

    .venv\Scripts\activate

    على macOS وLinux:

    source .venv/bin/activate
  6. تثبيت المكتبات المطلوبة.

    على windows:

    pip install -r requirements.txt

    على macOS وLinux:

    pip3 install -r requirements.txt

تشغيل نصوص إعداد بيانات النسخ لليوتيوب

على windows

.\transcripts_prepare.ps1

على macOS وLinux

./transcripts_prepare.sh

إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالترجمة البشرية الاحترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة ناتجة عن استخدام هذه الترجمة.