ಈ ಪಾಠದ ವೀಡಿಯೋವನ್ನು ನೋಡಲು ಮೇಲಿನ ಚಿತ್ರವನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ
LLM ಗಳು ಚಾಟ್ಬಾಟ್ಗಳು ಮತ್ತು ಪಠ್ಯ ರಚನೆಯಿಗಿಂತ ಹೆಚ್ಚು. ಎम्बೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಬಳಸಿ ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ಗಳನ್ನು ನಿರ್ಮಿಸುವುದೂ ಸಾಧ್ಯ. ಎम्बೆಡ್ಡಿಂಗ್ಗಳು ಡೇಟಾದ ಸಂಖ್ಯಾತ್ಮಕ ಪ್ರತಿನಿಧಿಗಳು, ಅಥವಾ ವೆಕ್ಟರ್ಗಳಾಗಿ ಕರೆಯಲ್ಪಡುವವು, ಮತ್ತು ಡೇಟಾದ ಸಾಂದರ್ಭಿಕ ಹುಡುಕಾಟಕ್ಕೆ ಬಳಸಬಹುದು.
ಈ ಪಾಠದಲ್ಲಿ, ನಾವು ನಮ್ಮ ಶಿಕ್ಷಣ ಸ್ಟಾರ್ಟ್ಅಪ್ಗೆ ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ನಿರ್ಮಿಸಲಿದ್ದೇವೆ. ನಮ್ಮ ಸ್ಟಾರ್ಟ್ಅಪ್ ಅಭಿವೃದ್ಧಿ ಹೊಂದುತ್ತಿರುವ ದೇಶಗಳ ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ ಉಚಿತ ಶಿಕ್ಷಣ ನೀಡುವ ಲಾಭರಹಿತ ಸಂಸ್ಥೆ. ನಮ್ಮ ಸ್ಟಾರ್ಟ್ಅಪ್ಗೆ ವಿದ್ಯಾರ್ಥಿಗಳು AI ಬಗ್ಗೆ ಕಲಿಯಲು ಬಳಸಬಹುದಾದ ಅನೇಕ YouTube ವೀಡಿಯೋಗಳಿವೆ. ವಿದ್ಯಾರ್ಥಿಗಳು ಪ್ರಶ್ನೆ ಟೈಪ್ ಮಾಡುವ ಮೂಲಕ YouTube ವೀಡಿಯೋವನ್ನು ಹುಡುಕಲು ಅನುಮತಿಸುವ ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ನಿರ್ಮಿಸಲು ನಮ್ಮ ಸ್ಟಾರ್ಟ್ಅಪ್ ಬಯಸುತ್ತದೆ.
ಉದಾಹರಣೆಗೆ, ವಿದ್ಯಾರ್ಥಿ 'ಜುಪೈಟರ್ ನೋಟ್ಬುಕ್ಗಳು ಏನು?' ಅಥವಾ 'ಅಜೂರ್ ML ಏನು?' ಎಂದು ಟೈಪ್ ಮಾಡಿದರೆ, ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ಪ್ರಶ್ನೆಗೆ ಸಂಬಂಧಿಸಿದ YouTube ವೀಡಿಯೋಗಳ ಪಟ್ಟಿಯನ್ನು ನೀಡುತ್ತದೆ, ಮತ್ತು ಇನ್ನೂ ಉತ್ತಮವಾಗಿ, ವೀಡಿಯೋದಲ್ಲಿ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರ ಇರುವ ಸ್ಥಳಕ್ಕೆ ಲಿಂಕ್ ಅನ್ನು ನೀಡುತ್ತದೆ.
ಈ ಪಾಠದಲ್ಲಿ ನಾವು ಚರ್ಚಿಸುವುದು:
- ಸಾಂದರ್ಭಿಕ ಮತ್ತು ಕೀವರ್ಡ್ ಹುಡುಕಾಟ.
- ಪಠ್ಯ ಎम्बೆಡ್ಡಿಂಗ್ಗಳು ಏನು.
- ಪಠ್ಯ ಎम्बೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕವನ್ನು ರಚಿಸುವುದು.
- ಪಠ್ಯ ಎम्बೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕವನ್ನು ಹುಡುಕುವುದು.
ಈ ಪಾಠವನ್ನು ಪೂರ್ಣಗೊಳಿಸಿದ ನಂತರ, ನೀವು:
- ಸಾಂದರ್ಭಿಕ ಮತ್ತು ಕೀವರ್ಡ್ ಹುಡುಕಾಟದ ವ್ಯತ್ಯಾಸವನ್ನು ಹೇಳಬಲ್ಲಿರಿ.
- ಪಠ್ಯ ಎम्बೆಡ್ಡಿಂಗ್ಗಳು ಏನೆಂದು ವಿವರಿಸಬಲ್ಲಿರಿ.
- ಎम्बೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಬಳಸಿ ಡೇಟಾವನ್ನು ಹುಡುಕಲು ಅಪ್ಲಿಕೇಶನ್ ರಚಿಸಬಲ್ಲಿರಿ.
ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ನಿರ್ಮಿಸುವುದು ಎम्बೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಬಳಸಿ ಡೇಟಾವನ್ನು ಹುಡುಕುವುದು ಹೇಗೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ವಿದ್ಯಾರ್ಥಿಗಳು ತ್ವರಿತವಾಗಿ ಮಾಹಿತಿಯನ್ನು ಹುಡುಕಲು ಬಳಸಬಹುದಾದ ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ನಿರ್ಮಿಸುವುದನ್ನು ನೀವು ಕಲಿಯುತ್ತೀರಿ.
ಈ ಪಾಠದಲ್ಲಿ Microsoft AI Show YouTube ಚಾನೆಲ್ನ YouTube ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಟ್ಗಳ ಎम्बೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕವನ್ನು ಒಳಗೊಂಡಿದೆ. AI Show ಒಂದು YouTube ಚಾನೆಲ್ ಆಗಿದ್ದು, AI ಮತ್ತು ಯಂತ್ರ ಅಧ್ಯಯನವನ್ನು ಕಲಿಸುತ್ತದೆ. ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕವು 2023 ಅಕ್ಟೋಬರ್ ತನಕದ ಪ್ರತಿಯೊಂದು YouTube ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಟ್ಗಳ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಹೊಂದಿದೆ. ನೀವು ಈ ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕವನ್ನು ಬಳಸಿ ನಮ್ಮ ಸ್ಟಾರ್ಟ್ಅಪ್ಗೆ ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ನಿರ್ಮಿಸುವಿರಿ. ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರ ಇರುವ ವೀಡಿಯೋ ಭಾಗಕ್ಕೆ ಲಿಂಕ್ ಅನ್ನು ನೀಡುತ್ತದೆ. ಇದು ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ ಅಗತ್ಯ ಮಾಹಿತಿಯನ್ನು ತ್ವರಿತವಾಗಿ ಹುಡುಕಲು ಉತ್ತಮ ಮಾರ್ಗ.
ಕೆಳಗಿನ ಚಿತ್ರವು 'ನೀವು rstudio ಅನ್ನು ಅಜೂರ್ ML ಜೊತೆಗೆ ಬಳಸಬಹುದೇ?' ಎಂಬ ಪ್ರಶ್ನೆಗೆ ಸಾಂದರ್ಭಿಕ ಪ್ರಶ್ನೆಯ ಉದಾಹರಣೆ. YouTube URL ಅನ್ನು ನೋಡಿ, URL ನಲ್ಲಿ ಟೈಮ್ಸ್ಟ್ಯಾಂಪ್ ಇದೆ, ಅದು ಪ್ರಶ್ನೆಗೆ ಉತ್ತರ ಇರುವ ವೀಡಿಯೋ ಭಾಗಕ್ಕೆ ಕರೆದೊಯ್ಯುತ್ತದೆ.
ನೀವು ಈಗ ಆಶ್ಚರ್ಯಪಡಬಹುದು, ಸಾಂದರ್ಭಿಕ ಹುಡುಕಾಟ ಎಂದರೆ ಏನು? ಸಾಂದರ್ಭಿಕ ಹುಡುಕಾಟವು ಪ್ರಶ್ನೆಯಲ್ಲಿನ ಪದಗಳ ಅರ್ಥ ಅಥವಾ ಸಾಂದರ್ಭಿಕತೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಸಂಬಂಧಿತ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುವ ಹುಡುಕಾಟ ತಂತ್ರವಾಗಿದೆ.
ಇದೀಗ ಒಂದು ಸಾಂದರ್ಭಿಕ ಹುಡುಕಾಟದ ಉದಾಹರಣೆ. ನೀವು ಕಾರು ಖರೀದಿಸಲು ಬಯಸುತ್ತಿದ್ದರೆ, ನೀವು 'ನನ್ನ ಕನಸು ಕಾರು' ಎಂದು ಹುಡುಕಬಹುದು, ಸಾಂದರ್ಭಿಕ ಹುಡುಕಾಟವು ನೀವು ಕಾರಿನ ಕನಸು ಕಾಣುತ್ತಿರುವುದಲ್ಲ, ಬದಲಾಗಿ ನಿಮ್ಮ 'ಆದರ್ಶ' ಕಾರನ್ನು ಹುಡುಕುತ್ತಿರುವುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ. ಸಾಂದರ್ಭಿಕ ಹುಡುಕಾಟ ನಿಮ್ಮ ಉದ್ದೇಶವನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡು ಸಂಬಂಧಿತ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ. ಪರ್ಯಾಯವಾಗಿ, ಕೀವರ್ಡ್ ಹುಡುಕಾಟ ಕನಸುಗಳ ಬಗ್ಗೆ ನಿಖರವಾಗಿ ಹುಡುಕುತ್ತದೆ ಮತ್ತು ಅನೇಕ ಬಾರಿ ಸಂಬಂಧವಿಲ್ಲದ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ.
ಪಠ್ಯ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳು ಸ್ವಾಭಾವಿಕ ಭಾಷಾ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಬಳಸುವ ಪಠ್ಯದ ಪ್ರತಿನಿಧಿಸುವ ತಂತ್ರ. ಪಠ್ಯ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳು ಪಠ್ಯದ ಸಾಂದರ್ಭಿಕ ಸಂಖ್ಯಾತ್ಮಕ ಪ್ರತಿನಿಧಿಗಳು. ಎಂಬೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಡೇಟಾವನ್ನು ಯಂತ್ರಕ್ಕೆ ಸುಲಭವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ರೀತಿಯಲ್ಲಿ ಪ್ರತಿನಿಧಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ. ಪಠ್ಯ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳನ್ನು ನಿರ್ಮಿಸಲು ಅನೇಕ ಮಾದರಿಗಳು ಇವೆ, ಈ ಪಾಠದಲ್ಲಿ ನಾವು OpenAI ಎಂಬೆಡ್ಡಿಂಗ್ ಮಾದರಿಯನ್ನು ಬಳಸಿ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳನ್ನು ರಚಿಸುವುದರ ಮೇಲೆ ಗಮನಹರಿಸುವೆವು.
ಇದೀಗ ಒಂದು ಉದಾಹರಣೆ, ಕೆಳಗಿನ ಪಠ್ಯ AI Show YouTube ಚಾನೆಲ್ನ ಒಂದು ಎಪಿಸೋಡ್ನ ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಟ್ನ ಭಾಗವಾಗಿದೆ ಎಂದು ಕಲ್ಪಿಸೋಣ:
Today we are going to learn about Azure Machine Learning.
ನಾವು ಪಠ್ಯವನ್ನು OpenAI ಎಂಬೆಡ್ಡಿಂಗ್ API ಗೆ ಕಳುಹಿಸುತ್ತೇವೆ ಮತ್ತು ಅದು 1536 ಸಂಖ್ಯೆಗಳ (ವೆಕ್ಟರ್) ಎಂಬೆಡ್ಡಿಂಗ್ ಅನ್ನು ನೀಡುತ್ತದೆ. ವೆಕ್ಟರ್ನ ಪ್ರತಿಯೊಂದು ಸಂಖ್ಯೆ ಪಠ್ಯದ ವಿಭಿನ್ನ ಅಂಶವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ. ಸಂಕ್ಷಿಪ್ತಿಗಾಗಿ, ಇಲ್ಲಿ ವೆಕ್ಟರ್ನ ಮೊದಲ 10 ಸಂಖ್ಯೆಗಳು ಇವೆ.
[-0.006655829958617687, 0.0026128944009542465, 0.008792596869170666, -0.02446001023054123, -0.008540431968867779, 0.022071078419685364, -0.010703742504119873, 0.003311325330287218, -0.011632772162556648, -0.02187200076878071, ...]ಈ ಪಾಠದ ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕವು ಪೈಥಾನ್ ಸ್ಕ್ರಿಪ್ಟ್ಗಳ ಸರಣಿಯಿಂದ ರಚಿಸಲಾಗಿದೆ. ನೀವು ಈ ಪಾಠದ 'scripts' ಫೋಲ್ಡರ್ನಲ್ಲಿರುವ README ನಲ್ಲಿ ಸ್ಕ್ರಿಪ್ಟ್ಗಳು ಮತ್ತು ಸೂಚನೆಗಳನ್ನು ಕಾಣಬಹುದು. ಈ ಪಾಠವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ನೀವು ಈ ಸ್ಕ್ರಿಪ್ಟ್ಗಳನ್ನು ಓಡಿಸುವ ಅಗತ್ಯವಿಲ್ಲ, ಏಕೆಂದರೆ ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕ ನಿಮಗೆ ನೀಡಲಾಗಿದೆ.
ಸ್ಕ್ರಿಪ್ಟ್ಗಳು ಕೆಳಗಿನ ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತವೆ:
- AI Show ಪ್ಲೇಲಿಸ್ಟ್ನ ಪ್ರತಿಯೊಂದು YouTube ವೀಡಿಯೋ ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಟ್ ಡೌನ್ಲೋಡ್ ಮಾಡಲಾಗುತ್ತದೆ.
- OpenAI Functions ಬಳಸಿ, YouTube ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಟ್ನ ಮೊದಲ 3 ನಿಮಿಷಗಳಿಂದ ಸ್ಪೀಕರ್ ಹೆಸರು ತೆಗೆದುಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸಲಾಗುತ್ತದೆ. ಪ್ರತಿಯೊಂದು ವೀಡಿಯೋಗೆ ಸ್ಪೀಕರ್ ಹೆಸರು
embedding_index_3m.jsonಎಂಬ ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕದಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. - ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಟ್ ಪಠ್ಯವನ್ನು 3 ನಿಮಿಷಗಳ ಪಠ್ಯ ವಿಭಾಗಗಳಾಗಿ ವಿಭಜಿಸಲಾಗುತ್ತದೆ. ಈ ವಿಭಾಗವು ಮುಂದಿನ ವಿಭಾಗದಿಂದ ಸುಮಾರು 20 ಪದಗಳ ಅತಿರಿಕ್ತ ಭಾಗವನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಇದರಿಂದ ವಿಭಾಗದ ಎಂಬೆಡ್ಡಿಂಗ್ ಕಡಿತವಾಗದಂತೆ ಮತ್ತು ಉತ್ತಮ ಹುಡುಕಾಟ ಸಾಂದರ್ಭಿಕತೆ ಒದಗಿಸಲು.
- ಪ್ರತಿಯೊಂದು ಪಠ್ಯ ವಿಭಾಗವನ್ನು OpenAI ಚಾಟ್ API ಗೆ ಕಳುಹಿಸಿ 60 ಪದಗಳ ಸಾರಾಂಶವನ್ನು ರಚಿಸಲಾಗುತ್ತದೆ. ಸಾರಾಂಶವನ್ನು ಕೂಡ
embedding_index_3m.jsonನಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. - ಕೊನೆಗೆ, ವಿಭಾಗದ ಪಠ್ಯವನ್ನು OpenAI ಎಂಬೆಡ್ಡಿಂಗ್ API ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ. ಎಂಬೆಡ್ಡಿಂಗ್ API 1536 ಸಂಖ್ಯೆಗಳ ವೆಕ್ಟರ್ ಅನ್ನು ನೀಡುತ್ತದೆ, ಇದು ವಿಭಾಗದ ಸಾಂದರ್ಭಿಕ ಅರ್ಥವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ. ವಿಭಾಗ ಮತ್ತು OpenAI ಎಂಬೆಡ್ಡಿಂಗ್ ವೆಕ್ಟರ್
embedding_index_3m.jsonಎಂಬ ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕದಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ.
ಪಾಠದ ಸರಳತೆಗೆ, ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕವನ್ನು embedding_index_3m.json ಎಂಬ JSON ಫೈಲ್ನಲ್ಲಿ ಸಂಗ್ರಹಿಸಿ Pandas DataFrame ಗೆ ಲೋಡ್ ಮಾಡಲಾಗಿದೆ. ಆದರೆ ಉತ್ಪಾದನೆಯಲ್ಲಿ, ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕವನ್ನು Azure Cognitive Search, Redis, Pinecone, Weaviate ಮುಂತಾದ ವೆಕ್ಟರ್ ಡೇಟಾಬೇಸ್ಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ.
ನಾವು ಪಠ್ಯ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳ ಬಗ್ಗೆ ಕಲಿತಿದ್ದೇವೆ, ಮುಂದಿನ ಹಂತವು ಪಠ್ಯ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಬಳಸಿ ಡೇಟಾವನ್ನು ಹುಡುಕುವುದು ಮತ್ತು ವಿಶೇಷವಾಗಿ ಕೋಸೈನ್ ಸಾದೃಶ್ಯವನ್ನು ಬಳಸಿ ನೀಡಲಾದ ಪ್ರಶ್ನೆಗೆ ಅತ್ಯಂತ ಸಾದೃಶ್ಯ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು.
ಕೋಸೈನ್ ಸಾದೃಶ್ಯವು ಎರಡು ವೆಕ್ಟರ್ಗಳ ನಡುವಿನ ಸಾದೃಶ್ಯದ ಅಳತೆ. ಇದನ್ನು ನಿಕಟ ನೆರೆಹೊರೆಯ ಹುಡುಕಾಟ ಎಂದು ಕೂಡ ಕರೆಯುತ್ತಾರೆ. ಕೋಸೈನ್ ಸಾದೃಶ್ಯ ಹುಡುಕಾಟ ಮಾಡಲು, ನೀವು OpenAI ಎಂಬೆಡ್ಡಿಂಗ್ API ಬಳಸಿ ಪ್ರಶ್ನೆಯ ಪಠ್ಯವನ್ನು ವೆಕ್ಟರೀಕರಿಸಬೇಕು. ನಂತರ, ಪ್ರಶ್ನೆ ವೆಕ್ಟರ್ ಮತ್ತು ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕದಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ವೆಕ್ಟರ್ ನಡುವಿನ ಕೋಸೈನ್ ಸಾದೃಶ್ಯವನ್ನು ಲೆಕ್ಕಿಸಬೇಕು. ಎಂಬೆಡ್ಡಿಂಗ್ ಸೂಚ್ಯಂಕದಲ್ಲಿ ಪ್ರತಿಯೊಂದು YouTube ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಟ್ ಪಠ್ಯ ವಿಭಾಗಕ್ಕೆ ಒಂದು ವೆಕ್ಟರ್ ಇರುತ್ತದೆ. ಕೊನೆಗೆ, ಫಲಿತಾಂಶಗಳನ್ನು ಕೋಸೈನ್ ಸಾದೃಶ್ಯ ಆಧಾರವಾಗಿ ವಿಂಗಡಿಸಿ, ಅತ್ಯಂತ ಸಾದೃಶ್ಯ ಪಠ್ಯ ವಿಭಾಗಗಳನ್ನು ತೋರಿಸಲಾಗುತ್ತದೆ.
ಗಣಿತ ದೃಷ್ಟಿಕೋನದಿಂದ, ಕೋಸೈನ್ ಸಾದೃಶ್ಯವು ಬಹುಮಾನದಿಕ ಸ್ಥಳದಲ್ಲಿ ಎರಡು ವೆಕ್ಟರ್ಗಳ ನಡುವಿನ ಕೋನದ ಕೋಸೈನ್ ಅನ್ನು ಅಳೆಯುತ್ತದೆ. ಇದು ಉಪಯುಕ್ತ, ಏಕೆಂದರೆ ಎರಡು ದಾಖಲೆಗಳು ಯೂಕ್ಲಿಡಿಯನ್ ದೂರದಿಂದ ದೂರದಲ್ಲಿದ್ದರೂ, ಅವುಗಳ ನಡುವಿನ ಕೋನ ಕಡಿಮೆ ಇರಬಹುದು ಮತ್ತು ಆದ್ದರಿಂದ ಕೋಸೈನ್ ಸಾದೃಶ್ಯ ಹೆಚ್ಚು ಇರಬಹುದು. ಕೋಸೈನ್ ಸಾದೃಶ್ಯ ಸಮೀಕರಣಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗೆ, Cosine similarity ನೋಡಿ.
ಮುಂದೆ, ನಾವು ಎಂಬೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಬಳಸಿ ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ನಿರ್ಮಿಸುವುದನ್ನು ಕಲಿಯೋಣ. ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ವಿದ್ಯಾರ್ಥಿಗಳು ಪ್ರಶ್ನೆ ಟೈಪ್ ಮಾಡುವ ಮೂಲಕ ವೀಡಿಯೋವನ್ನು ಹುಡುಕಲು ಅನುಮತಿಸುತ್ತದೆ. ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ಪ್ರಶ್ನೆಗೆ ಸಂಬಂಧಿಸಿದ ವೀಡಿಯೋಗಳ ಪಟ್ಟಿಯನ್ನು ನೀಡುತ್ತದೆ. ಜೊತೆಗೆ, ಪ್ರಶ್ನೆಗೆ ಉತ್ತರ ಇರುವ ವೀಡಿಯೋ ಭಾಗಕ್ಕೆ ಲಿಂಕ್ ಅನ್ನು ನೀಡುತ್ತದೆ.
ಈ ಪರಿಹಾರವನ್ನು Windows 11, macOS, ಮತ್ತು Ubuntu 22.04 ನಲ್ಲಿ Python 3.10 ಅಥವಾ ನಂತರದ ಆವೃತ್ತಿ ಬಳಸಿ ನಿರ್ಮಿಸಿ ಪರೀಕ್ಷಿಸಲಾಗಿದೆ. Python ಅನ್ನು python.org ನಿಂದ ಡೌನ್ಲೋಡ್ ಮಾಡಬಹುದು.
ಈ ಪಾಠದ ಆರಂಭದಲ್ಲಿ ನಾವು ನಮ್ಮ ಸ್ಟಾರ್ಟ್ಅಪ್ ಪರಿಚಯಿಸಿದ್ದೇವೆ. ಈಗ ವಿದ್ಯಾರ್ಥಿಗಳು ತಮ್ಮ ಮೌಲ್ಯಮಾಪನಗಳಿಗೆ ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ನಿರ್ಮಿಸಲು ಅವಕಾಶ ನೀಡುವ ಸಮಯ.
ಈ ಕಾರ್ಯದಲ್ಲಿ, ನೀವು ಹುಡುಕಾಟ ಅಪ್ಲಿಕೇಶನ್ ನಿರ್ಮಿಸಲು ಬಳಸುವ Azure OpenAI ಸೇವೆಗಳನ್ನು ರಚಿಸುವಿರಿ. ನೀವು ಕೆಳಗಿನ Azure OpenAI ಸೇವೆಗಳನ್ನು ರಚಿಸುವಿರಿ. ಈ ಕಾರ್ಯವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ನಿಮಗೆ Azure ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್ ಬೇಕಾಗುತ್ತದೆ.
- Azure ಪೋರ್ಟಲ್ ಗೆ ಸೈನ್ ಇನ್ ಆಗಿ.
- Azure ಪೋರ್ಟಲ್ನ ಮೇಲ್ಭಾಗದ ಬಲಭಾಗದಲ್ಲಿ ಕ್ಲೌಡ್ ಶೆಲ್ ಐಕಾನ್ ಆಯ್ಕೆಮಾಡಿ.
- ಪರಿಸರ ಪ್ರಕಾರವಾಗಿ Bash ಆಯ್ಕೆಮಾಡಿ.
ಈ ಸೂಚನೆಗಳಿಗೆ, ನಾವು ಪೂರ್ವ ಅಮೆರಿಕದ "semantic-video-search" ಎಂಬ ರಿಸೋರ್ಸ್ ಗ್ರೂಪ್ ಅನ್ನು ಬಳಸುತ್ತಿದ್ದೇವೆ. ನೀವು ರಿಸೋರ್ಸ್ ಗ್ರೂಪ್ ಹೆಸರನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಆದರೆ ರಿಸೋರ್ಸ್ಗಳ ಸ್ಥಳ ಬದಲಾಯಿಸುವಾಗ, ಮಾದರಿ ಲಭ್ಯತೆ ಪಟ್ಟಿಯನ್ನು ಪರಿಶೀಲಿಸಿ.
az group create --name semantic-video-search --location eastusAzure ಕ್ಲೌಡ್ ಶೆಲ್ನಿಂದ ಕೆಳಗಿನ ಕಮಾಂಡ್ ಅನ್ನು ಓಡಿಸಿ Azure OpenAI ಸೇವೆ ರಿಸೋರ್ಸ್ ರಚಿಸಲು.
az cognitiveservices account create --name semantic-video-openai --resource-group semantic-video-search \
--location eastus --kind OpenAI --sku s0Azure ಕ್ಲೌಡ್ ಶೆಲ್ನಿಂದ ಕೆಳಗಿನ ಕಮಾಂಡ್ಗಳನ್ನು ಓಡಿಸಿ Azure OpenAI ಸೇವೆ ರಿಸೋರ್ಸ್ನ ಎಂಡ್ಪಾಯಿಂಟ್ ಮತ್ತು ಕೀಗಳನ್ನು ಪಡೆಯಿರಿ.
az cognitiveservices account show --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .properties.endpoint
az cognitiveservices account keys list --name semantic-video-openai \
--resource-group semantic-video-search | jq -r .key1Azure ಕ್ಲೌಡ್ ಶೆಲ್ನಿಂದ ಕೆಳಗಿನ ಕಮಾಂಡ್ ಅನ್ನು ಓಡಿಸಿ OpenAI ಎಂಬೆಡ್ಡಿಂಗ್ ಮಾದರಿಯನ್ನು ನಿಯೋಜಿಸಲು.
az cognitiveservices account deployment create \
--name semantic-video-openai \
--resource-group semantic-video-search \
--deployment-name text-embedding-ada-002 \
--model-name text-embedding-ada-002 \
--model-version "2" \
--model-format OpenAI \
--sku-capacity 100 --sku-name "Standard"GitHub Codespaces ನಲ್ಲಿ solution notebook ಅನ್ನು ತೆರೆಯಿರಿ ಮತ್ತು Jupyter Notebook ನಲ್ಲಿ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಿ.
ನೀವು ನೋಟ್ಬುಕ್ ಅನ್ನು ಓಡಿಸಿದಾಗ, ಪ್ರಶ್ನೆ ನಮೂದಿಸಲು ಪ್ರಾಂಪ್ಟ್ ಆಗುತ್ತದೆ. ಇನ್ಪುಟ್ ಬಾಕ್ಸ್ ಹೀಗೆ ಕಾಣುತ್ತದೆ:
ಈ ಪಾಠವನ್ನು ಪೂರ್ಣಗೊಳಿಸಿದ ನಂತರ, ನಮ್ಮ ಜನರೇಟಿವ್ AI ಕಲಿಕೆ ಸಂಗ್ರಹ ಅನ್ನು ಪರಿಶೀಲಿಸಿ ಮತ್ತು ನಿಮ್ಮ ಜನರೇಟಿವ್ AI ಜ್ಞಾನವನ್ನು ಮತ್ತಷ್ಟು ವೃದ್ಧಿಪಡಿಸಿ!
ಪಾಠ 9 ಗೆ ಹೋಗಿ, ಅಲ್ಲಿ ನಾವು ಚಿತ್ರ ರಚನೆ ಅಪ್ಲಿಕೇಶನ್ಗಳನ್ನು ನಿರ್ಮಿಸುವುದನ್ನು ನೋಡೋಣ!
ಅಸ್ವೀಕರಣ:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ Co-op Translator ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.


