Skip to content

Latest commit

 

History

History
60 lines (34 loc) · 10.9 KB

File metadata and controls

60 lines (34 loc) · 10.9 KB

ಬಲವರ್ಧಿತ ಅಧ್ಯಯನಕ್ಕೆ ಪರಿಚಯ

ಬಲವರ್ಧಿತ ಅಧ್ಯಯನ, RL, ಮೇಲ್ವಿಚಾರಿತ ಅಧ್ಯಯನ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆಯಿಲ್ಲದ ಅಧ್ಯಯನದ ಪಕ್ಕದಲ್ಲಿ ಮೂಲ ಯಂತ್ರ ಅಧ್ಯಯನ ಪರಿಕಲ್ಪನೆಗಳಲ್ಲಿ ಒಂದಾಗಿ ಪರಿಗಣಿಸಲಾಗಿದೆ. RL ಎಲ್ಲವೂ ನಿರ್ಧಾರಗಳ ಬಗ್ಗೆ: ಸರಿಯಾದ ನಿರ್ಧಾರಗಳನ್ನು ನೀಡುವುದು ಅಥವಾ ಕನಿಷ್ಠ ಅವುಗಳಿಂದ ಕಲಿಯುವುದು.

ನೀವು ಷೇರು ಮಾರುಕಟ್ಟೆಂತಹ ಅನುಕರಿಸಿದ ಪರಿಸರವನ್ನು ಹೊಂದಿದ್ದೀರಿ ಎಂದು ಕಲ್ಪಿಸಿ. ನೀವು ನೀಡಿದ ನಿಯಮವನ್ನು ಜಾರಿಗೆ ತಂದರೆ ಏನಾಗುತ್ತದೆ? ಅದು ಧನಾತ್ಮಕ ಅಥವಾ ಋಣಾತ್ಮಕ ಪರಿಣಾಮ ಹೊಂದಿದೆಯೇ? ಏನಾದರೂ ಋಣಾತ್ಮಕವಾದುದು ಸಂಭವಿಸಿದರೆ, ನೀವು ಈ ಋಣಾತ್ಮಕ ಬಲವರ್ಧನೆ ತೆಗೆದುಕೊಳ್ಳಬೇಕು, ಅದರಿಂದ ಕಲಿಯಬೇಕು ಮತ್ತು ದಿಕ್ಕು ಬದಲಾಯಿಸಬೇಕು. ಅದು ಧನಾತ್ಮಕ ಫಲಿತಾಂಶವಾದರೆ, ನೀವು ಆ ಧನಾತ್ಮಕ ಬಲವರ್ಧನೆ ಮೇಲೆ ನಿರ್ಮಿಸಬೇಕು.

peter and the wolf

ಪೀಟರ್ ಮತ್ತು ಅವನ ಸ್ನೇಹಿತರು ಹಸಿವಿನ ನರಿ ತಪ್ಪಿಸಿಕೊಳ್ಳಬೇಕಾಗಿದೆ! ಚಿತ್ರವನ್ನು ಜೆನ್ ಲೂಪರ್ ನೀಡಿದ್ದಾರೆ

ಪ್ರಾದೇಶಿಕ ವಿಷಯ: ಪೀಟರ್ ಮತ್ತು ನರಿ (ರಷ್ಯಾ)

ಪೀಟರ್ ಮತ್ತು ನರಿ ರಷ್ಯಾದ ಸಂಗೀತ ರಚನೆಗಾರ ಸೆರ್ಗೇ ಪ್ರೊಕೊಫಿಯೆವ್ ರಚಿಸಿದ ಸಂಗೀತ ಕಥೆ. ಇದು ಯುವ ಪಯನಿಯರ್ ಪೀಟರ್ ಬಗ್ಗೆ ಕಥೆ, ಅವನು ಧೈರ್ಯವಾಗಿ ತನ್ನ ಮನೆಯಿಂದ ಕಾಡಿನ ತೆರೆಯ ಕಡೆಗೆ ಹೋಗಿ ನರಿಯನ್ನು ಹಿಂಬಾಲಿಸುತ್ತಾನೆ. ಈ ವಿಭಾಗದಲ್ಲಿ, ನಾವು ಪೀಟರ್‌ಗೆ ಸಹಾಯ ಮಾಡುವ ಯಂತ್ರ ಅಧ್ಯಯನ ಆಲ್ಗಾರಿದಮ್ಗಳನ್ನು ತರಬೇತಿಮಾಡುತ್ತೇವೆ:

  • ಸುತ್ತಲೂ ಇರುವ ಪ್ರದೇಶವನ್ನು ಅನ್ವೇಷಿಸಿ ಮತ್ತು ಅತ್ಯುತ್ತಮ ನ್ಯಾವಿಗೇಶನ್ ನಕ್ಷೆಯನ್ನು ನಿರ್ಮಿಸಿ
  • ಸ್ಕೇಟ್ಬೋರ್ಡ್ ಬಳಸುವುದು ಮತ್ತು ಅದರಲ್ಲಿ ಸಮತೋಲನ ಸಾಧಿಸುವುದನ್ನು ಕಲಿಯಿರಿ, ವೇಗವಾಗಿ ಸುತ್ತಾಡಲು.

Peter and the Wolf

🎥 ಮೇಲಿನ ಚಿತ್ರವನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ ಪ್ರೊಕೊಫಿಯೆವ್ ಅವರ ಪೀಟರ್ ಮತ್ತು ನರಿ ಕೇಳಿ

ಬಲವರ್ಧಿತ ಅಧ್ಯಯನ

ಹಿಂದಿನ ವಿಭಾಗಗಳಲ್ಲಿ, ನೀವು ಯಂತ್ರ ಅಧ್ಯಯನ ಸಮಸ್ಯೆಗಳ ಎರಡು ಉದಾಹರಣೆಗಳನ್ನು ನೋಡಿದ್ದೀರಿ:

  • ಮೇಲ್ವಿಚಾರಿತ, ಇಲ್ಲಿ ನಾವು ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ಮಾದರಿ ಪರಿಹಾರಗಳನ್ನು ಸೂಚಿಸುವ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಹೊಂದಿದ್ದೇವೆ. ವರ್ಗೀಕರಣ ಮತ್ತು ರಿಗ್ರೆಶನ್ ಮೇಲ್ವಿಚಾರಿತ ಅಧ್ಯಯನ ಕಾರ್ಯಗಳಾಗಿವೆ.
  • ಮೇಲ್ವಿಚಾರಣೆಯಿಲ್ಲದ, ಇಲ್ಲಿ ನಮಗೆ ಲೇಬಲ್ ಮಾಡಲಾದ ತರಬೇತಿ ಡೇಟಾ ಇಲ್ಲ. ಮೇಲ್ವಿಚಾರಣೆಯಿಲ್ಲದ ಅಧ್ಯಯನದ ಮುಖ್ಯ ಉದಾಹರಣೆ ಗುಚ್ಛೀಕರಣ.

ಈ ವಿಭಾಗದಲ್ಲಿ, ನಾವು ಲೇಬಲ್ ಮಾಡಲಾದ ತರಬೇತಿ ಡೇಟಾ ಅಗತ್ಯವಿಲ್ಲದ ಹೊಸ ತರದ ಅಧ್ಯಯನ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಚಯಿಸುವೆವು. ಇಂತಹ ಸಮಸ್ಯೆಗಳ ಹಲವು ವಿಧಗಳಿವೆ:

  • ಅರ್ಧ-ಮೇಲ್ವಿಚಾರಿತ ಅಧ್ಯಯನ, ಇಲ್ಲಿ ನಮಗೆ ಪೂರ್ವ-ತರಬೇತಿಗಾಗಿ ಬಳಸಬಹುದಾದ ಅನೇಕ ಲೇಬಲ್ ಮಾಡದ ಡೇಟಾ ಇರುತ್ತದೆ.
  • ಬಲವರ್ಧಿತ ಅಧ್ಯಯನ, ಇದರಲ್ಲಿ ಏಜೆಂಟ್ ಕೆಲವು ಅನುಕರಿಸಿದ ಪರಿಸರದಲ್ಲಿ ಪ್ರಯೋಗಗಳನ್ನು ನಡೆಸಿ ಹೇಗೆ ವರ್ತಿಸಬೇಕೆಂದು ಕಲಿಯುತ್ತಾನೆ.

ಉದಾಹರಣೆ - ಕಂಪ್ಯೂಟರ್ ಆಟ

ನೀವು ಕಂಪ್ಯೂಟರ್‌ಗೆ ಚೆಸ್ ಅಥವಾ ಸೂಪರ್ ಮಾರಿಯೋ ಆಟವನ್ನು ಆಡಿಸಲು ಕಲಿಸಲು ಬಯಸಿದರೆ. ಕಂಪ್ಯೂಟರ್ ಆಟ ಆಡಲು, ನಾವು ಪ್ರತಿ ಆಟದ ಸ್ಥಿತಿಯಲ್ಲಿ ಯಾವ ಚಲನೆ ಮಾಡಬೇಕೆಂದು ಊಹಿಸಬೇಕಾಗುತ್ತದೆ. ಇದು ವರ್ಗೀಕರಣ ಸಮಸ್ಯೆಯಂತೆ ತೋರುತ್ತದೆ, ಆದರೆ ಅಲ್ಲ - ಏಕೆಂದರೆ ನಮಗೆ ಸ್ಥಿತಿಗಳು ಮತ್ತು ಸಂಬಂಧಿತ ಕ್ರಿಯೆಗಳ ಡೇಟಾಸೆಟ್ ಇಲ್ಲ. ನಾವು ಕೆಲವು ಡೇಟಾ ಹೊಂದಿದ್ದರೂ, ಉದಾಹರಣೆಗೆ ಇತ್ತೀಚಿನ ಚೆಸ್ ಪಂದ್ಯಗಳು ಅಥವಾ ಸೂಪರ್ ಮಾರಿಯೋ ಆಟಗಾರರ ರೆಕಾರ್ಡಿಂಗ್, ಆ ಡೇಟಾ ಸಾಕಷ್ಟು ದೊಡ್ಡ ಸಂಖ್ಯೆಯ ಸಾಧ್ಯ ಸ್ಥಿತಿಗಳನ್ನು ಒಳಗೊಂಡಿರಲಾರದು.

ಇದಕ್ಕೆ ಬದಲಾಗಿ, ಬಲವರ್ಧಿತ ಅಧ್ಯಯನ (RL) ಆಲೋಚನೆ ಆಧಾರಿತವಾಗಿದೆ ಕಂಪ್ಯೂಟರ್ ಅನ್ನು ಅನೇಕ ಬಾರಿ ಆಟ ಆಡಿಸುವುದು ಮತ್ತು ಫಲಿತಾಂಶವನ್ನು ಗಮನಿಸುವುದು. ಆದ್ದರಿಂದ, ಬಲವರ್ಧಿತ ಅಧ್ಯಯನವನ್ನು ಅನ್ವಯಿಸಲು, ನಮಗೆ ಎರಡು ವಸ್ತುಗಳು ಬೇಕಾಗಿವೆ:

  • ಒಂದು ಪರಿಸರ ಮತ್ತು ಒಂದು ಅನುಕರಣೆ, ಇದು ನಮಗೆ ಆಟವನ್ನು ಅನೇಕ ಬಾರಿ ಆಡಲು ಅನುಮತಿಸುತ್ತದೆ. ಈ ಅನುಕರಣೆ ಎಲ್ಲಾ ಆಟದ ನಿಯಮಗಳು ಮತ್ತು ಸಾಧ್ಯ ಸ್ಥಿತಿಗಳು ಮತ್ತು ಕ್ರಿಯೆಗಳನ್ನೂ ನಿರ್ಧರಿಸುತ್ತದೆ.

  • ಒಂದು ಬಹುಮಾನ ಕಾರ್ಯ, ಇದು ಪ್ರತಿ ಚಲನೆ ಅಥವಾ ಆಟದ ಸಮಯದಲ್ಲಿ ನಾವು ಎಷ್ಟು ಚೆನ್ನಾಗಿ ಮಾಡಿದ್ದೇವೆ ಎಂದು ಹೇಳುತ್ತದೆ.

ಇತರ ಯಂತ್ರ ಅಧ್ಯಯನ ವಿಧಗಳಿಗಿಂತ RL ಮುಖ್ಯ ವ್ಯತ್ಯಾಸವೆಂದರೆ, RL ನಲ್ಲಿ ನಾವು ಆಟ ಮುಗಿಯುವವರೆಗೆ ನಾವು ಗೆಲುವು ಅಥವಾ ಸೋಲು ತಿಳಿಯುವುದಿಲ್ಲ. ಆದ್ದರಿಂದ, ಒಂದು ನಿರ್ದಿಷ್ಟ ಚಲನೆ ಒಳ್ಳೆಯದೋ ಇಲ್ಲವೋ ಹೇಳಲು ಸಾಧ್ಯವಿಲ್ಲ - ನಾವು ಆಟದ ಕೊನೆಯಲ್ಲಿ ಮಾತ್ರ ಬಹುಮಾನ ಪಡೆಯುತ್ತೇವೆ. ಮತ್ತು ನಮ್ಮ ಗುರಿ ಅಸ್ಪಷ್ಟ ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿ ಮಾದರಿಯನ್ನು ತರಬೇತಿಮಾಡಲು ಆಲ್ಗಾರಿದಮ್ಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುವುದು. ನಾವು Q-ಅಧ್ಯಯನ ಎಂಬ ಒಂದು RL ಆಲ್ಗಾರಿದಮ್ನ ಬಗ್ಗೆ ಕಲಿಯುತ್ತೇವೆ.

ಪಾಠಗಳು

  1. ಬಲವರ್ಧಿತ ಅಧ್ಯಯನ ಮತ್ತು Q-ಅಧ್ಯಯನಕ್ಕೆ ಪರಿಚಯ
  2. ಜಿಮ್ ಅನುಕರಣೆ ಪರಿಸರವನ್ನು ಬಳಸುವುದು

ಕ್ರೆಡಿಟ್ಸ್

"ಬಲವರ್ಧಿತ ಅಧ್ಯಯನಕ್ಕೆ ಪರಿಚಯ" ಅನ್ನು ♥️ ಸಹಿತ ಡ್ಮಿತ್ರಿ ಸೋಶ್ನಿಕೋವ್ ರಚಿಸಿದ್ದಾರೆ


ಅಸ್ವೀಕರಣ:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ Co-op Translator ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.