Skip to content

Latest commit

 

History

History
180 lines (128 loc) · 9.37 KB

File metadata and controls

180 lines (128 loc) · 9.37 KB

ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಷನ್ ಡೇಟಾ ತಯಾರಿ

ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಷನ್ ಡೇಟಾ ತಯಾರಿ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳು YouTube ವೀಡಿಯೊ ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಿ Semantic Search with OpenAI Embeddings and Functions ಮಾದರಿಗಾಗಿ ಬಳಸಲು ಸಿದ್ಧಪಡಿಸುತ್ತವೆ.

ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಷನ್ ಡೇಟಾ ತಯಾರಿ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳನ್ನು ಇತ್ತೀಚಿನ ಬಿಡುಗಡೆಗಳಾದ Windows 11, macOS Ventura ಮತ್ತು Ubuntu 22.04 (ಮತ್ತು ಮೇಲಿನ) ಮೇಲೆ ಪರೀಕ್ಷಿಸಲಾಗಿದೆ.

ಅಗತ್ಯವಿರುವ Azure OpenAI ಸೇವಾ ಸಂಪನ್ಮೂಲಗಳನ್ನು ರಚಿಸಿ

Important

OpenAI ಜೊತೆಗೆ ಹೊಂದಾಣಿಕೆಗೆ ಖಚಿತಪಡಿಸಲು ನಾವು ನಿಮಗೆ Azure CLI ಅನ್ನು ಇತ್ತೀಚಿನ ಆವೃತ್ತಿಗೆ ನವೀಕರಿಸಲು ಸಲಹೆ ನೀಡುತ್ತೇವೆ ಡಾಕ್ಯುಮೆಂಟೇಶನ್ ನೋಡಿ

  1. ಒಂದು ರಿಸೋರ್ಸ್ ಗ್ರೂಪ್ ರಚಿಸಿ

Note

ಈ ಸೂಚನೆಗಳಿಗೆ ನಾವು "semantic-video-search" ಎಂಬ ರಿಸೋರ್ಸ್ ಗ್ರೂಪ್ ಅನ್ನು East US ನಲ್ಲಿ ಬಳಸುತ್ತಿದ್ದೇವೆ. ನೀವು ರಿಸೋರ್ಸ್ ಗ್ರೂಪ್ ಹೆಸರನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಆದರೆ ಸಂಪನ್ಮೂಲಗಳ ಸ್ಥಳವನ್ನು ಬದಲಾಯಿಸುವಾಗ, ಮಾದರಿ ಲಭ್ಯತೆ ಟೇಬಲ್ ಪರಿಶೀಲಿಸಿ.

az group create --name semantic-video-search --location eastus
  1. ಒಂದು Azure OpenAI ಸೇವಾ ಸಂಪನ್ಮೂಲವನ್ನು ರಚಿಸಿ.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
    --location eastus --kind OpenAI --sku s0
  1. ಈ ಅಪ್ಲಿಕೇಶನ್‌ನಲ್ಲಿ ಬಳಕೆಗಾಗಿ ಎಂಡ್ಪಾಯಿಂಟ್ ಮತ್ತು ಕೀಗಳನ್ನು ಪಡೆಯಿರಿ
az cognitiveservices account show --name semantic-video-openai \
   --resource-group  semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
   --resource-group semantic-video-search | jq -r .key1
  1. ಕೆಳಗಿನ ಮಾದರಿಗಳನ್ನು ನಿಯೋಜಿಸಿ:
    • text-embedding-ada-002 ಆವೃತ್ತಿ 2 ಅಥವಾ ಹೆಚ್ಚಿನದು, ಹೆಸರಿಸಲಾಗಿದೆ text-embedding-ada-002
    • gpt-35-turbo ಆವೃತ್ತಿ 0613 ಅಥವಾ ಹೆಚ್ಚಿನದು, ಹೆಸರಿಸಲಾಗಿದೆ gpt-35-turbo
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name text-embedding-ada-002 \
    --model-name text-embedding-ada-002 \
    --model-version "2"  \
    --model-format OpenAI \
    --scale-settings-scale-type "Standard"
az cognitiveservices account deployment create \
    --name semantic-video-openai \
    --resource-group  semantic-video-search \
    --deployment-name gpt-35-turbo \
    --model-name gpt-35-turbo \
    --model-version "0613"  \
    --model-format OpenAI \
    --sku-capacity 100 \
    --sku-name "Standard"

ಅಗತ್ಯವಿರುವ ಸಾಫ್ಟ್‌ವೇರ್

  • Python 3.9 ಅಥವಾ ಹೆಚ್ಚಿನದು

ಪರಿಸರ ಚರಗಳು

YouTube ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಷನ್ ಡೇಟಾ ತಯಾರಿ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳನ್ನು ಚಾಲನೆ ಮಾಡಲು ಕೆಳಗಿನ ಪರಿಸರ ಚರಗಳು ಅಗತ್ಯವಿವೆ.

ವಿಂಡೋಸ್‌ನಲ್ಲಿ

ನಿಮ್ಮ user ಪರಿಸರ ಚರಗಳಿಗೆ ಈ ಚರಗಳನ್ನು ಸೇರಿಸುವುದನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. Windows Start > Edit the system environment variables > Environment Variables > [USER] ಗೆ User variables > New.

AZURE_OPENAI_API_KEY  \<your Azure OpenAI Service API key>
AZURE_OPENAI_ENDPOINT \<your Azure OpenAI Service endpoint>
AZURE_OPENAI_MODEL_DEPLOYMENT_NAME \<your Azure OpenAI Service model deployment name>
GOOGLE_DEVELOPER_API_KEY = \<your Google developer API key>

ಲಿನಕ್ಸ ಮತ್ತು macOS ನಲ್ಲಿ

ನಿಮ್ಮ ~/.bashrc ಅಥವಾ ~/.zshrc ಫೈಲ್‌ಗೆ ಕೆಳಗಿನ ಎಕ್ಸ್ಪೋರ್ಟ್‌ಗಳನ್ನು ಸೇರಿಸುವುದನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ.

export AZURE_OPENAI_API_KEY=<your Azure OpenAI Service API key>
export AZURE_OPENAI_ENDPOINT=<your Azure OpenAI Service endpoint>
export AZURE_OPENAI_MODEL_DEPLOYMENT_NAME=<your Azure OpenAI Service model deployment name>
export GOOGLE_DEVELOPER_API_KEY=<your Google developer API key>

ಅಗತ್ಯವಿರುವ Python ಲೈಬ್ರರಿಗಳನ್ನು ಸ್ಥಾಪಿಸಿ

  1. git ಕ್ಲೈಂಟ್ ಈಗಾಗಲೇ ಸ್ಥಾಪಿತವಾಗಿಲ್ಲದಿದ್ದರೆ ಅದನ್ನು ಸ್ಥಾಪಿಸಿ.

  2. Terminal ವಿಂಡೋದಿಂದ, ಮಾದರಿಯನ್ನು ನಿಮ್ಮ ಇಚ್ಛಿತ ರೆಪೋ ಫೋಲ್ಡರ್‌ಗೆ ಕ್ಲೋನ್ ಮಾಡಿ.

    git clone https://github.com/gloveboxes/semanic-search-openai-embeddings-functions.git
  3. data_prep ಫೋಲ್ಡರ್‌ಗೆ ನವಿಗೇಟ್ ಮಾಡಿ.

    cd semanic-search-openai-embeddings-functions/src/data_prep
  4. Python ವರ್ಚುವಲ್ ಪರಿಸರವನ್ನು ರಚಿಸಿ.

    ವಿಂಡೋಸ್‌ನಲ್ಲಿ:

    python -m venv .venv

    macOS ಮತ್ತು ಲಿನಕ್ಸ್ನಲ್ಲಿ:

    python3 -m venv .venv
  5. Python ವರ್ಚುವಲ್ ಪರಿಸರವನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿ.

    ವಿಂಡೋಸ್‌ನಲ್ಲಿ:

    .venv\Scripts\activate

    macOS ಮತ್ತು ಲಿನಕ್ಸ್ನಲ್ಲಿ:

    source .venv/bin/activate
  6. ಅಗತ್ಯವಿರುವ ಲೈಬ್ರರಿಗಳನ್ನು ಸ್ಥಾಪಿಸಿ.

    ವಿಂಡೋಸ್‌ನಲ್ಲಿ:

    pip install -r requirements.txt

    macOS ಮತ್ತು ಲಿನಕ್ಸ್ನಲ್ಲಿ:

    pip3 install -r requirements.txt

YouTube ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಷನ್ ಡೇಟಾ ತಯಾರಿ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳನ್ನು ಚಾಲನೆ ಮಾಡಿ

ವಿಂಡೋಸ್‌ನಲ್ಲಿ

.\transcripts_prepare.ps1

macOS ಮತ್ತು ಲಿನಕ್ಸ್ನಲ್ಲಿ

./transcripts_prepare.sh

ಅಸ್ವೀಕರಣ:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ Co-op Translator ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.