Skip to content

Latest commit

 

History

History
32 lines (22 loc) · 8.22 KB

File metadata and controls

32 lines (22 loc) · 8.22 KB

మరింత వాస్తవిక ప్రపంచం

మన పరిస్థితిలో, పీటర్ దాదాపు అలసిపోకుండా లేదా ఆకలితో బాధపడకుండా చుట్టూ తిరగగలిగాడు. మరింత వాస్తవిక ప్రపంచంలో, మనం సమయానికి కూర్చొని విశ్రాంతి తీసుకోవాలి, అలాగే తినుకోవాలి కూడా. మన ప్రపంచాన్ని మరింత వాస్తవికంగా మార్చుకుందాం, క్రింది నియమాలను అమలు చేయడం ద్వారా:

  1. ఒక చోట నుండి మరొక చోటకు కదలడం ద్వారా, పీటర్ శక్తి కోల్పోతాడు మరియు కొంత దుర్బలత పొందుతాడు.
  2. పీటర్ ఆపిల్స్ తినడం ద్వారా మరింత శక్తిని పొందవచ్చు.
  3. పీటర్ చెట్టు కింద లేదా గడ్డి మీద విశ్రాంతి తీసుకోవడం ద్వారా దుర్బలతను తొలగించుకోవచ్చు (అంటే చెట్టు లేదా గడ్డి ఉన్న బోర్డు స్థలంలో నడవడం - ఆకుపచ్చ మైదానం)
  4. పీటర్ నక్కను కనుగొని చంపాలి
  5. నక్కను చంపడానికి, పీటర్ కు నిర్దిష్ట స్థాయిల శక్తి మరియు దుర్బలత అవసరం, లేకపోతే అతను యుద్ధంలో ఓడిపోతాడు.

సూచనలు

మీ పరిష్కారానికి ప్రారంభ బిందువుగా అసలు notebook.ipynb నోట్బుక్ ఉపయోగించండి.

పైన ఉన్న రివార్డ్ ఫంక్షన్ ను ఆట నియమాల ప్రకారం మార్చండి, గేమ్ గెలవడానికి ఉత్తమ వ్యూహాన్ని నేర్చుకోవడానికి రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ అల్గోరిథమ్ ను నడపండి, మరియు గెలిచిన మరియు ఓడిపోయిన ఆటల సంఖ్య పరంగా రాండమ్ వాక్ తో మీ అల్గోరిథమ్ ఫలితాలను పోల్చండి.

గమనిక: మీ కొత్త ప్రపంచంలో, స్థితి మరింత సంక్లిష్టంగా ఉంటుంది, మరియు మానవ స్థానానికి అదనంగా దుర్బలత మరియు శక్తి స్థాయిలు కూడా ఉంటాయి. మీరు స్థితిని (Board,energy,fatigue) అనే టుపుల్ గా ప్రదర్శించవచ్చు, లేదా స్థితి కోసం ఒక క్లాస్ నిర్వచించవచ్చు (మీరు దీన్ని Board నుండి ఉత్పన్నం చేసుకోవచ్చు), లేదా అసలు Board క్లాస్ ను rlboard.py లో మార్చవచ్చు.

మీ పరిష్కారంలో, దయచేసి రాండమ్ వాక్ వ్యూహానికి సంబంధించిన కోడ్ ను ఉంచండి, మరియు చివరలో మీ అల్గోరిథమ్ ఫలితాలను రాండమ్ వాక్ తో పోల్చండి.

గమనిక: ఇది పనిచేయడానికి మీరు హైపర్‌పారామీటర్లను సర్దుబాటు చేయవలసి ఉండవచ్చు, ముఖ్యంగా ఎపోక్స్ సంఖ్య. ఎందుకంటే ఆటలో విజయం (నక్కతో పోరాటం) అరుదైన సంఘటన, మీరు చాలా ఎక్కువ శిక్షణ సమయం ఆశించవచ్చు.

రూబ్రిక్

ప్రమాణాలు అద్భుతం సరిపోతుంది మెరుగుదల అవసరం
కొత్త ప్రపంచ నియమాల నిర్వచనం, Q-లెర్నింగ్ అల్గోరిథమ్ మరియు కొన్ని వచన వివరణలతో కూడిన నోట్బుక్ అందించబడింది. Q-లెర్నింగ్ రాండమ్ వాక్ తో పోల్చితే ఫలితాలను గణనీయంగా మెరుగుపరుస్తుంది. నోట్బుక్ అందించబడింది, Q-లెర్నింగ్ అమలు చేయబడింది మరియు రాండమ్ వాక్ తో పోల్చితే ఫలితాలు మెరుగుపడినవి, కానీ గణనీయంగా కాదు; లేదా నోట్బుక్ బాగా డాక్యుమెంట్ చేయబడలేదు మరియు కోడ్ బాగా నిర్మించబడలేదు ప్రపంచ నియమాలను పునః నిర్వచించడానికి కొంత ప్రయత్నం జరిగింది, కానీ Q-లెర్నింగ్ అల్గోరిథమ్ పనిచేయడం లేదు, లేదా రివార్డ్ ఫంక్షన్ పూర్తిగా నిర్వచించబడలేదు

అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారులు కోసం మేము బాధ్యత వహించము.