סקריפטי הכנת נתוני התמלול מורידים תמלולים של סרטוני יוטיוב ומכינים אותם לשימוש עם החיפוש הסמנטי באמצעות OpenAI Embeddings ו-Functions.
סקריפטי הכנת נתוני התמלול נבדקו על הגרסאות האחרונות של Windows 11, macOS Ventura ו-Ubuntu 22.04 (ומעלה).
Important
אנו ממליצים לעדכן את Azure CLI לגרסה האחרונה כדי להבטיח תאימות עם OpenAI ראו תיעוד
- יצירת קבוצת משאבים
Note
להוראות אלה אנו משתמשים בקבוצת המשאבים בשם "semantic-video-search" במזרח ארה"ב. ניתן לשנות את שם קבוצת המשאבים, אך בעת שינוי המיקום למשאבים, בדקו את טבלת זמינות המודלים.
az group create --name semantic-video-search --location eastus- יצירת משאב Azure OpenAI Service.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0- קבלת נקודת הקצה והמפתחות לשימוש ביישום זה
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1- פרסו את המודלים הבאים:
text-embedding-ada-002version2or greater, namedtext-embedding-ada-002gpt-35-turboversion0613or greater, namedgpt-35-turbo
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name gpt-35-turbo \
--model-name gpt-35-turbo \
--model-version "0613" \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name "Standard"- Python 3.9 או גרסה מתקדמת יותר
המשתנים הבאים נדרשים להפעלת סקריפטי הכנת נתוני התמלול מיוטיוב.
מומלץ להוסיף את המשתנים ל-user environment variables.
Windows Start > Edit the system environment variables > Environment Variables > User variables for [USER] > New.
AZURE_OPENAI_API_KEY \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>
מומלץ להוסיף את ההגדרות הבאות לקובץ ~/.bashrc or ~/.zshrc.
export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>-
התקנת לקוח git אם הוא לא מותקן כבר.
-
מחלון
Terminal, שיבטו את הדוגמה לתיקיית הריפו המועדפת עליכם.git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
-
נווטו לתיקיית
data_prep.cd semanic-search-openai-embeddings-functions/src/data_prep -
יצירת סביבה וירטואלית של Python.
ב-Windows:
python -m venv .venvב-macOS ו-Linux:
python3 -m venv .venv
-
הפעלת הסביבה הווירטואלית של Python.
ב-Windows:
.venv\Scripts\activate
ב-macOS ו-Linux:
source .venv/bin/activate -
התקנת הספריות הנדרשות.
ב-Windows:
pip install -r requirements.txtב-macOS ו-Linux:
pip3 install -r requirements.txt
.\transcripts_prepare.ps1./transcripts_prepare.shכתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום AI Co-op Translator. למרות שאנו שואפים לדיוק, יש להיות מודעים לכך שתרגומים אוטומטיים עשויים להכיל טעויות או אי דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. עבור מידע קריטי, מומלץ להשתמש בתרגום מקצועי אנושי. איננו אחראים לכל אי הבנות או פרשנויות שגויות הנובעות מהשימוש בתרגום זה.