סקריפטים להכנת נתוני תמלול מורידים תמלולים של סרטוני YouTube ומכינים אותם לשימוש עם דוגמת Semantic Search עם OpenAI Embeddings ו-Functions.
סקריפטים להכנת נתוני תמלול נבדקו על הגרסאות האחרונות של Windows 11, macOS Ventura ו-Ubuntu 22.04 (ומעלה).
Important
אנו ממליצים לעדכן את Azure CLI לגרסה העדכנית ביותר כדי להבטיח תאימות עם OpenAI ראה Documentation
- צור קבוצת משאבים
Note
בהוראות אלו אנו משתמשים בקבוצת המשאבים בשם "semantic-video-search" באזור East US. ניתן לשנות את שם קבוצת המשאבים, אך כשמשנים את מיקום המשאבים, יש לבדוק את טבלת זמינות הדגמים.
az group create --name semantic-video-search --location eastus- צור משאב Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- קבל את נקודת הקצה והמפתחות לשימוש באפליקציה זו
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- פרוס את הדגמים הבאים:
text-embedding-ada-002גרסה2ומעלה, בשםtext-embedding-ada-002gpt-35-turboגרסה0613ומעלה, בשםgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 ומעלה
משתני הסביבה הבאים נדרשים להפעלת סקריפטי הכנת נתוני התמלול של YouTube.
מומלץ להוסיף את המשתנים למשתני הסביבה של המשתמש.
Windows Start > Edit the system environment variables > Environment Variables > User variables עבור [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
מומלץ להוסיף את ה-exports הבאים לקובץ ~/.bashrc או ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
התקן את git client אם הוא לא מותקן כבר.
-
מחלון
Terminal, שכפל את הדוגמה לתיקיית הריפו המועדפת עליך.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
עבור לתיקיית
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
צור סביבה וירטואלית של Python.
ב-Windows:
python -m venv .venvב-macOS ו-Linux:
python3 -m venv .venv
-
הפעל את הסביבה הווירטואלית של Python.
ב-Windows:
.venv\Scripts\activate
ב-macOS ו-Linux:
source .venv/bin/activate -
התקן את הספריות הנדרשות.
ב-Windows:
pip install -r requirements.txtב-macOS ו-Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shכתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. למרות שאנו שואפים לדיוק, יש לקחת בחשבון כי תרגומים אוטומטיים עלולים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפת המקור שלו נחשב למקור הסמכותי. למידע קריטי מומלץ להשתמש בתרגום מקצועי על ידי אדם. אנו לא נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.