OpenAI Gym இவ்வாறு வடிவமைக்கப்பட்டுள்ளது, அனைத்து சூழல்களும் ஒரே API-ஐ வழங்குகின்றன - அதாவது, ஒரே reset, step மற்றும் render முறைமைகள் மற்றும் action space மற்றும் observation space ஆகியவற்றின் ஒரே சுருக்கங்கள். எனவே, reinforcement learning algorithm-களை குறைந்த அளவு குறியீட்டு மாற்றங்களுடன் வெவ்வேறு சூழல்களுக்கு ஏற்றுக்கொள்ள முடியும்.
மலை கார் சூழல் ஒரு பள்ளத்தாக்கில் சிக்கியுள்ள காரை கொண்டுள்ளது:
பள்ளத்தாக்கிலிருந்து வெளியேறி கொடியை பிடிக்க வேண்டும், இதற்காக ஒவ்வொரு படியிலும் பின்வரும் செயல்களில் ஒன்றை செய்ய வேண்டும்:
| மதிப்பு | பொருள் |
|---|---|
| 0 | இடதுபுறம் வேகத்தை அதிகரிக்கவும் |
| 1 | வேகத்தை அதிகரிக்க வேண்டாம் |
| 2 | வலதுபுறம் வேகத்தை அதிகரிக்கவும் |
இந்த பிரச்சனையின் முக்கிய தந்திரம் என்னவென்றால், காரின் இயந்திரம் ஒரு முறை முயற்சியில் மலைக்கு ஏறுவதற்கு போதுமான சக்தி கொண்டது இல்லை. எனவே, வெற்றி பெற ஒரே வழி, வேகத்தை அதிகரிக்க பின்சென்று மீண்டும் முன்னேற வேண்டும்.
Observation space இரண்டு மதிப்புகளை மட்டுமே கொண்டுள்ளது:
| எண் | கண்காணிப்பு | குறைந்தபட்சம் | அதிகபட்சம் |
|---|---|---|---|
| 0 | கார் நிலை | -1.2 | 0.6 |
| 1 | கார் வேகம் | -0.07 | 0.07 |
மலை கார் பரிசு அமைப்பு மிகவும் சிக்கலானது:
- மலை உச்சியில் கொடியை (position = 0.5) அடைந்தால், 0 பரிசு வழங்கப்படும்.
- முகவர் 0.5 க்கு குறைவான நிலையை அடைந்தால், -1 பரிசு வழங்கப்படும்.
கார் நிலை 0.5 க்கு மேல் இருந்தால் அல்லது எபிசோட் நீளம் 200 க்கு மேல் இருந்தால் எபிசோட் முடிவடைகிறது.
மலை கார் பிரச்சனையை தீர்க்க எங்கள் reinforcement learning algorithm-ஐ ஏற்றுக்கொள்ளவும். உள்ள notebook.ipynb குறியீட்டுடன் தொடங்கவும், புதிய சூழலை மாற்றவும், state discretization செயல்பாடுகளை மாற்றவும், மற்றும் குறைந்த அளவு குறியீட்டு மாற்றங்களுடன் உள்ள algorithm-ஐ பயிற்சி செய்ய முயற்சிக்கவும். Hyperparameters-ஐ சரிசெய்து முடிவுகளை மேம்படுத்தவும்.
குறிப்பு: Algorithm-ஐ சரியாக செயல்பட Hyperparameters-ஐ சரிசெய்தல் தேவைப்படும்.
| அளவுகோல் | சிறந்தது | போதுமானது | மேம்பாடு தேவை |
|---|---|---|---|
| CartPole எடுத்துக்காட்டிலிருந்து Q-Learning algorithm வெற்றிகரமாக ஏற்றுக்கொள்ளப்பட்டுள்ளது, குறைந்த அளவு குறியீட்டு மாற்றங்களுடன், 200 படிகளில் கொடியை பிடிக்கும் பிரச்சனையை தீர்க்க முடியும். | புதிய Q-Learning algorithm இணையத்திலிருந்து ஏற்றுக்கொள்ளப்பட்டுள்ளது, ஆனால் நன்கு ஆவணப்படுத்தப்பட்டுள்ளது; அல்லது உள்ள algorithm ஏற்றுக்கொள்ளப்பட்டுள்ளது, ஆனால் விரும்பிய முடிவுகளை அடையவில்லை | மாணவர் எந்த algorithm-ஐயும் வெற்றிகரமாக ஏற்றுக்கொள்ள முடியவில்லை, ஆனால் தீர்வை நோக்கி முக்கியமான நடவடிக்கைகளை எடுத்துள்ளார் (state discretization, Q-Table தரவமைப்பு, முதலியன செயல்படுத்தியுள்ளார்) |
அறிவிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையை பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கிறோம், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை கவனத்தில் கொள்ளவும். அதன் சொந்த மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்களுக்கும் அல்லது தவறான விளக்கங்களுக்கும் நாங்கள் பொறுப்பல்ல.
