നമ്മുടെ സാഹചര്യത്തിൽ, പീറ്റർ തളരാതെ അല്ലെങ്കിൽ വിശക്കാതെ ഏകദേശം ചുറ്റിപ്പറക്കാൻ കഴിഞ്ഞു. കൂടുതൽ യാഥാർത്ഥ്യമുള്ള ലോകത്തിൽ, നമ്മൾ ഇടയ്ക്കിടെ ഇരുന്ന് വിശ്രമിക്കേണ്ടതും, കൂടാതെ ഭക്ഷണം കഴിക്കേണ്ടതും ഉണ്ടാകും. താഴെ കൊടുത്തിരിക്കുന്ന നിയമങ്ങൾ നടപ്പിലാക്കി നമ്മുടെ ലോകം കൂടുതൽ യാഥാർത്ഥ്യമാക്കാം:
- ഒരു സ്ഥലത്ത് നിന്ന് മറ്റൊരിടത്തേക്ക് നീങ്ങുമ്പോൾ, പീറ്റർ ഊർജം നഷ്ടപ്പെടുകയും കുറച്ച് ക്ഷീണം നേടുകയും ചെയ്യും.
- ആപ്പിളുകൾ കഴിച്ച് പീറ്റർ കൂടുതൽ ഊർജം നേടാൻ കഴിയും.
- പീറ്റർ വൃക്ഷത്തിനടിയിൽ അല്ലെങ്കിൽ പുൽമേടിൽ (അഥവാ - പച്ചത്തോട്ടം ഉള്ള ബോർഡ് ലൊക്കേഷനിലേക്ക് നടക്കുമ്പോൾ) വിശ്രമിച്ച് ക്ഷീണം ഒഴിവാക്കാം.
- പീറ്റർ നരഭക്ഷകനെ കണ്ടെത്തി കൊല്ലണം.
- നരഭക്ഷകനെ കൊല്ലാൻ, പീറ്ററിന് നിർദ്ദിഷ്ടമായ ഊർജവും ക്ഷീണവും വേണം, അല്ലെങ്കിൽ അവൻ യുദ്ധം തോറ്റുപോകും.
നിങ്ങളുടെ പരിഹാരത്തിന് തുടക്കമായി ഒറിജിനൽ notebook.ipynb നോട്ട്ബുക്ക് ഉപയോഗിക്കുക.
ഗെയിമിന്റെ നിയമങ്ങൾ അനുസരിച്ച് മുകളിൽ കൊടുത്ത റിവാർഡ് ഫംഗ്ഷൻ മാറ്റി, reinforcement learning ആൽഗോരിതം പ്രവർത്തിപ്പിച്ച് ഗെയിം ജയിക്കാനുള്ള മികച്ച തന്ത്രം പഠിപ്പിക്കുക, പിന്നെ റാൻഡം വാക്കുമായി നിങ്ങളുടെ ആൽഗോരിതത്തിന്റെ ഫലങ്ങൾ (ജയിച്ചും തോറ്റും ഗെയിമുകളുടെ എണ്ണം) താരതമ്യം ചെയ്യുക.
കുറിപ്പ്: നിങ്ങളുടെ പുതിയ ലോകത്തിൽ, സ്റ്റേറ്റ് കൂടുതൽ സങ്കീർണ്ണമാണ്, മനുഷ്യന്റെ സ്ഥാനം കൂടാതെ ക്ഷീണം, ഊർജം നിലകളും ഉൾപ്പെടുന്നു. സ്റ്റേറ്റ് (Board,energy,fatigue) എന്ന ട്യൂപ്പിളായി പ്രതിനിധാനം ചെയ്യാമോ, അല്ലെങ്കിൽ സ്റ്റേറ്റിനായി ഒരു ക്ലാസ് നിർവചിക്കാമോ (Board-ൽ നിന്നു derive ചെയ്യാനും കഴിയും), അല്ലെങ്കിൽ ഒറിജിനൽ
Boardക്ലാസ് rlboard.py ഫയലിൽ തന്നെ മാറ്റം വരുത്താം.
നിങ്ങളുടെ പരിഹാരത്തിൽ, ദയവായി റാൻഡം വാക്ക് തന്ത്രത്തിന് ഉത്തരവാദിയായ കോഡ് സൂക്ഷിക്കുക, അവസാനം നിങ്ങളുടെ ആൽഗോരിതവും റാൻഡം വാക്കും തമ്മിലുള്ള ഫലങ്ങൾ താരതമ്യം ചെയ്യുക.
കുറിപ്പ്: ഇത് പ്രവർത്തിക്കാൻ hyperparameters ക്രമീകരിക്കേണ്ടി വരാം, പ്രത്യേകിച്ച് epochs-ന്റെ എണ്ണം. ഗെയിം വിജയിക്കുക (നരഭക്ഷകനെ യുദ്ധം ചെയ്യുക) അപൂർവമായ സംഭവമാണെന്ന് കണക്കിലെടുത്ത്, പരിശീലന സമയം വളരെ നീണ്ടേക്കാം.
| മാനദണ്ഡം | ഉദാഹരണപരമായത് | മതിയായത് | മെച്ചപ്പെടുത്തേണ്ടത് |
|---|---|---|---|
| പുതിയ ലോക നിയമങ്ങളുടെ നിർവചനവും Q-Learning ആൽഗോരിതവും ചില വാചക വിശദീകരണങ്ങളും ഉള്ള ഒരു നോട്ട്ബുക്ക് അവതരിപ്പിച്ചിരിക്കുന്നു. Q-Learning റാൻഡം വാക്കുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ഫലങ്ങൾ ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നു. | നോട്ട്ബുക്ക് അവതരിപ്പിച്ചിരിക്കുന്നു, Q-Learning നടപ്പിലാക്കി റാൻഡം വാക്കുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ഫലങ്ങൾ മെച്ചപ്പെട്ടിട്ടുണ്ട്, പക്ഷേ ഗണ്യമായില്ല; അല്ലെങ്കിൽ നോട്ട്ബുക്ക് ദുർബലമായി രേഖപ്പെടുത്തിയിട്ടുണ്ട്, കോഡ് നല്ല രീതിയിൽ ഘടിപ്പിച്ചിട്ടില്ല | ലോകത്തിന്റെ നിയമങ്ങൾ പുനർനിർവചിക്കാൻ ചില ശ്രമങ്ങൾ നടത്തിയിട്ടുണ്ട്, പക്ഷേ Q-Learning ആൽഗോരിതം പ്രവർത്തിക്കുന്നില്ല, അല്ലെങ്കിൽ റിവാർഡ് ഫംഗ്ഷൻ പൂർണ്ണമായി നിർവചിച്ചിട്ടില്ല |
അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.