மலை கார் பயிற்சி

OpenAI Gym இவ்வாறு வடிவமைக்கப்பட்டுள்ளது, அனைத்து சூழல்களும் ஒரே API-ஐ வழங்குகின்றன - அதாவது, ஒரே reset, step மற்றும் render முறைமைகள் மற்றும் action space மற்றும் observation space ஆகியவற்றின் ஒரே சுருக்கங்கள். எனவே, reinforcement learning algorithm-களை குறைந்த அளவு குறியீட்டு மாற்றங்களுடன் வெவ்வேறு சூழல்களுக்கு ஏற்றுக்கொள்ள முடியும்.

மலை கார் சூழல்

மலை கார் சூழல் ஒரு பள்ளத்தாக்கில் சிக்கியுள்ள காரை கொண்டுள்ளது:

பள்ளத்தாக்கிலிருந்து வெளியேறி கொடியை பிடிக்க வேண்டும், இதற்காக ஒவ்வொரு படியிலும் பின்வரும் செயல்களில் ஒன்றை செய்ய வேண்டும்:

மதிப்பு	பொருள்
0	இடதுபுறம் வேகத்தை அதிகரிக்கவும்
1	வேகத்தை அதிகரிக்க வேண்டாம்
2	வலதுபுறம் வேகத்தை அதிகரிக்கவும்

இந்த பிரச்சனையின் முக்கிய தந்திரம் என்னவென்றால், காரின் இயந்திரம் ஒரு முறை முயற்சியில் மலைக்கு ஏறுவதற்கு போதுமான சக்தி கொண்டது இல்லை. எனவே, வெற்றி பெற ஒரே வழி, வேகத்தை அதிகரிக்க பின்சென்று மீண்டும் முன்னேற வேண்டும்.

Observation space இரண்டு மதிப்புகளை மட்டுமே கொண்டுள்ளது:

எண்	கண்காணிப்பு	குறைந்தபட்சம்	அதிகபட்சம்
0	கார் நிலை	-1.2	0.6
1	கார் வேகம்	-0.07	0.07

மலை கார் பரிசு அமைப்பு மிகவும் சிக்கலானது:

மலை உச்சியில் கொடியை (position = 0.5) அடைந்தால், 0 பரிசு வழங்கப்படும்.
முகவர் 0.5 க்கு குறைவான நிலையை அடைந்தால், -1 பரிசு வழங்கப்படும்.

கார் நிலை 0.5 க்கு மேல் இருந்தால் அல்லது எபிசோட் நீளம் 200 க்கு மேல் இருந்தால் எபிசோட் முடிவடைகிறது.

வழிமுறைகள்

மலை கார் பிரச்சனையை தீர்க்க எங்கள் reinforcement learning algorithm-ஐ ஏற்றுக்கொள்ளவும். உள்ள notebook.ipynb குறியீட்டுடன் தொடங்கவும், புதிய சூழலை மாற்றவும், state discretization செயல்பாடுகளை மாற்றவும், மற்றும் குறைந்த அளவு குறியீட்டு மாற்றங்களுடன் உள்ள algorithm-ஐ பயிற்சி செய்ய முயற்சிக்கவும். Hyperparameters-ஐ சரிசெய்து முடிவுகளை மேம்படுத்தவும்.

குறிப்பு: Algorithm-ஐ சரியாக செயல்பட Hyperparameters-ஐ சரிசெய்தல் தேவைப்படும்.

மதிப்பீடு

அளவுகோல்	சிறந்தது	போதுமானது	மேம்பாடு தேவை
	CartPole எடுத்துக்காட்டிலிருந்து Q-Learning algorithm வெற்றிகரமாக ஏற்றுக்கொள்ளப்பட்டுள்ளது, குறைந்த அளவு குறியீட்டு மாற்றங்களுடன், 200 படிகளில் கொடியை பிடிக்கும் பிரச்சனையை தீர்க்க முடியும்.	புதிய Q-Learning algorithm இணையத்திலிருந்து ஏற்றுக்கொள்ளப்பட்டுள்ளது, ஆனால் நன்கு ஆவணப்படுத்தப்பட்டுள்ளது; அல்லது உள்ள algorithm ஏற்றுக்கொள்ளப்பட்டுள்ளது, ஆனால் விரும்பிய முடிவுகளை அடையவில்லை	மாணவர் எந்த algorithm-ஐயும் வெற்றிகரமாக ஏற்றுக்கொள்ள முடியவில்லை, ஆனால் தீர்வை நோக்கி முக்கியமான நடவடிக்கைகளை எடுத்துள்ளார் (state discretization, Q-Table தரவமைப்பு, முதலியன செயல்படுத்தியுள்ளார்)

அறிவிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையை பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கிறோம், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை கவனத்தில் கொள்ளவும். அதன் சொந்த மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்களுக்கும் அல்லது தவறான விளக்கங்களுக்கும் நாங்கள் பொறுப்பல்ல.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

மலை கார் பயிற்சி

மலை கார் சூழல்

வழிமுறைகள்

மதிப்பீடு

FilesExpand file tree

assignment.md

Latest commit

History

assignment.md

File metadata and controls

மலை கார் பயிற்சி

மலை கார் சூழல்

வழிமுறைகள்

மதிப்பீடு