Skip to content

Latest commit

 

History

History
176 lines (127 loc) · 6.08 KB

File metadata and controls

176 lines (127 loc) · 6.08 KB

הכנת נתוני תמלול

סקריפטי הכנת נתוני התמלול מורידים תמלולים של סרטוני יוטיוב ומכינים אותם לשימוש עם החיפוש הסמנטי באמצעות OpenAI Embeddings ו-Functions.

סקריפטי הכנת נתוני התמלול נבדקו על הגרסאות האחרונות של Windows 11, macOS Ventura ו-Ubuntu 22.04 (ומעלה).

יצירת משאבים נדרשים של Azure OpenAI Service

Important

אנו ממליצים לעדכן את Azure CLI לגרסה האחרונה כדי להבטיח תאימות עם OpenAI ראו תיעוד

  1. יצירת קבוצת משאבים

Note

להוראות אלה אנו משתמשים בקבוצת המשאבים בשם "semantic-video-search" במזרח ארה"ב. ניתן לשנות את שם קבוצת המשאבים, אך בעת שינוי המיקום למשאבים, בדקו את טבלת זמינות המודלים.

az group create --name semantic-video-search --location eastus
  1. יצירת משאב Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. קבלת נקודת הקצה והמפתחות לשימוש ביישום זה
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. פרסו את המודלים הבאים:
    • text-embedding-ada-002 version 2 or greater, named text-embedding-ada-002
    • gpt-35-turbo version 0613 or greater, named gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

תוכנה נדרשת

משתני סביבה

המשתנים הבאים נדרשים להפעלת סקריפטי הכנת נתוני התמלול מיוטיוב.

ב-Windows

מומלץ להוסיף את המשתנים ל-user environment variables. Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

ב-Linux וב-macOS

מומלץ להוסיף את ההגדרות הבאות לקובץ ~/.bashrc or ~/.zshrc.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

התקנת ספריות Python הנדרשות

  1. התקנת לקוח git אם הוא לא מותקן כבר.

  2. מחלון Terminal, שיבטו את הדוגמה לתיקיית הריפו המועדפת עליכם.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. נווטו לתיקיית data_prep.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. יצירת סביבה וירטואלית של Python.

    ב-Windows:

    python -m venv .venv

    ב-macOS ו-Linux:

    python3 -m venv .venv
  5. הפעלת הסביבה הווירטואלית של Python.

    ב-Windows:

    .venv\Scripts\activate

    ב-macOS ו-Linux:

    source .venv/bin/activate
  6. התקנת הספריות הנדרשות.

    ב-Windows:

    pip install -r requirements.txt

    ב-macOS ו-Linux:

    pip3 install -r requirements.txt

הפעלת סקריפטי הכנת נתוני התמלול מיוטיוב

ב-Windows

.\transcripts_prepare.ps1

ב-macOS ו-Linux

./transcripts_prepare.sh

כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום AI Co-op Translator. למרות שאנו שואפים לדיוק, יש להיות מודעים לכך שתרגומים אוטומטיים עשויים להכיל טעויות או אי דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. עבור מידע קריטי, מומלץ להשתמש בתרגום מקצועי אנושי. איננו אחראים לכל אי הבנות או פרשנויות שגויות הנובעות מהשימוש בתרגום זה.