Skip to content

Latest commit

 

History

History
60 lines (34 loc) · 12.3 KB

File metadata and controls

60 lines (34 loc) · 12.3 KB

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിങ്ങിലേക്ക് പരിചയം

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്, RL, സൂപ്പർവൈസ്ഡ് ലേണിംഗിനും അൺസൂപ്പർവൈസ്ഡ് ലേണിംഗിനും അടുത്തുള്ള അടിസ്ഥാന മെഷീൻ ലേണിംഗ് പാരഡൈംസ് ഒന്നായി കാണപ്പെടുന്നു. RL തീരുമാനങ്ങളുമായി ബന്ധപ്പെട്ടതാണ്: ശരിയായ തീരുമാനങ്ങൾ നൽകുക അല്ലെങ്കിൽ കുറഞ്ഞത് അവയിൽ നിന്ന് പഠിക്കുക.

നിങ്ങൾക്ക് സ്റ്റോക്ക് മാർക്കറ്റ് പോലൊരു സിമുലേറ്റഡ് പരിസ്ഥിതി ഉണ്ടെന്ന് കരുതുക. ഒരു നിശ്ചിത നിയന്ത്രണം ഏർപ്പെടുത്തുകയാണെങ്കിൽ എന്ത് സംഭവിക്കും? അത് പോസിറ്റീവ് ഫലമോ നെഗറ്റീവ് ഫലമോ ഉണ്ടാക്കുമോ? എന്തെങ്കിലും നെഗറ്റീവ് സംഭവിച്ചാൽ, നിങ്ങൾക്ക് ഈ നെഗറ്റീവ് റീഇൻഫോഴ്‌സ്‌മെന്റ് സ്വീകരിച്ച് അതിൽ നിന്ന് പഠിച്ച് ദിശ മാറ്റണം. അത് പോസിറ്റീവ് ഫലമായാൽ, നിങ്ങൾക്ക് ആ പോസിറ്റീവ് റീഇൻഫോഴ്‌സ്‌മെന്റ് അടിസ്ഥാനമാക്കി മുന്നോട്ട് പോകണം.

peter and the wolf

പീറ്ററും അവന്റെ സുഹൃത്തുക്കളും വിശപ്പുള്ള വുൾഫിൽ നിന്ന് രക്ഷപ്പെടണം! ചിത്രം Jen Looper എന്നവന്റെതാണ്

പ്രാദേശിക വിഷയം: പീറ്ററും വുൾഫും (റഷ്യ)

Peter and the Wolf റഷ്യൻ സംഗീതസംവിധായകൻ Sergei Prokofiev എഴുതിയ ഒരു സംഗീതപരമായ പഞ്ചതന്ത്രകഥയാണ്. ഇത് യുവ പയനിയർ പീറ്ററിനെക്കുറിച്ചുള്ള കഥയാണ്, അവൻ ധൈര്യത്തോടെ വീട്ടിൽ നിന്ന് കാട്ടിലെ തുറസ്സിലേക്ക് വുൾഫിനെ പിന്തുടരാൻ പോകുന്നു. ഈ വിഭാഗത്തിൽ, പീറ്ററിന് സഹായകമായ മെഷീൻ ലേണിംഗ് ആൽഗോരിതങ്ങൾ പരിശീലിപ്പിക്കും:

  • പരിസര പ്രദേശം അന്വേഷിച്ച് മികച്ച നാവിഗേഷൻ മാപ്പ് നിർമ്മിക്കുക
  • സ്കേറ്റ്ബോർഡ് ഉപയോഗിച്ച് അതിൽ ബാലൻസ് പിടിച്ച് വേഗത്തിൽ ചലിക്കാൻ പഠിക്കുക.

Peter and the Wolf

🎥 മുകളിൽ കാണുന്ന ചിത്രത്തിൽ ക്ലിക്ക് ചെയ്ത് പ്രൊകോഫിയേവിന്റെ പീറ്ററും വുൾഫും കേൾക്കൂ

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്

മുൻവകുപ്പുകളിൽ, നിങ്ങൾക്ക് മെഷീൻ ലേണിംഗ് പ്രശ്നങ്ങളുടെ രണ്ട് ഉദാഹരണങ്ങൾ കാണിച്ചിട്ടുണ്ട്:

  • സൂപ്പർവൈസ്ഡ്, ഇവിടെ നമുക്ക് പ്രശ്നം പരിഹരിക്കാൻ സാമ്പിൾ പരിഹാരങ്ങൾ സൂചിപ്പിക്കുന്ന ഡാറ്റാസെറ്റുകൾ ഉണ്ട്. ക്ലാസിഫിക്കേഷൻയും റെഗ്രഷൻയും സൂപ്പർവൈസ്ഡ് ലേണിംഗ് ടാസ്കുകളാണ്.
  • അൺസൂപ്പർവൈസ്ഡ്, ഇവിടെ ലേബൽ ചെയ്ത പരിശീലന ഡാറ്റ ഇല്ല. അൺസൂപ്പർവൈസ്ഡ് ലേണിംഗിന്റെ പ്രധാന ഉദാഹരണം ക്ലസ്റ്ററിംഗ് ആണ്.

ഈ വിഭാഗത്തിൽ, ലേബൽ ചെയ്ത പരിശീലന ഡാറ്റ ആവശ്യമില്ലാത്ത പുതിയ തരത്തിലുള്ള ലേണിംഗ് പ്രശ്നം പരിചയപ്പെടുത്തും. ഇത്തരം പ്രശ്നങ്ങളുടെ പല തരങ്ങളുണ്ട്:

ഉദാഹരണം - കമ്പ്യൂട്ടർ ഗെയിം

നിങ്ങൾക്ക് ഒരു കമ്പ്യൂട്ടറിനെ ചെസ് പോലുള്ള ഗെയിം കളിക്കാൻ പഠിപ്പിക്കണമെന്ന് കരുതുക, അല്ലെങ്കിൽ സൂപ്പർ മാരിയോ പോലുള്ളത്. കമ്പ്യൂട്ടർ ഗെയിം കളിക്കാൻ, ഓരോ ഗെയിം സ്റ്റേറ്റിലും ഏത് നീക്കം ചെയ്യണമെന്ന് പ്രവചിക്കണം. ഇത് ക്ലാസിഫിക്കേഷൻ പ്രശ്നം പോലെ തോന്നിയേക്കാം, പക്ഷേ അത് അല്ല - കാരണം നമുക്ക് സ്റ്റേറ്റുകളും അനുബന്ധ പ്രവർത്തനങ്ങളും ഉള്ള ഡാറ്റാസെറ്റ് ഇല്ല. നിലവിലുള്ള ചെസ് മത്സരങ്ങൾ അല്ലെങ്കിൽ സൂപ്പർ മാരിയോ കളിക്കുന്ന കളിക്കാരുടെ റെക്കോർഡുകൾ പോലുള്ള ചില ഡാറ്റ ഉണ്ടാകാം, പക്ഷേ ആ ഡാറ്റ സാധ്യതയുള്ള സ്റ്റേറ്റുകളുടെ വലിയ എണ്ണം മതിയായ രീതിയിൽ ഉൾക്കൊള്ളില്ല.

നിലവിലുള്ള ഗെയിം ഡാറ്റ അന്വേഷിക്കുന്നതിന് പകരം, റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് (RL) കമ്പ്യൂട്ടർ പല തവണ കളിക്കട്ടെ എന്ന ആശയത്തെ അടിസ്ഥാനമാക്കുന്നു, ഫലങ്ങൾ നിരീക്ഷിച്ച്. അതിനാൽ, റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് പ്രയോഗിക്കാൻ, നമുക്ക് രണ്ട് കാര്യങ്ങൾ വേണം:

  • ഒരു പരിസ്ഥിതിയും ഒരു സിമുലേറ്ററും, ഗെയിം പല തവണ കളിക്കാൻ അനുവദിക്കുന്നവ. ഈ സിമുലേറ്റർ എല്ലാ ഗെയിം നിയമങ്ങളും സാധ്യതയുള്ള സ്റ്റേറ്റുകളും പ്രവർത്തനങ്ങളും നിർവചിക്കും.

  • ഒരു റിവാർഡ് ഫംഗ്ഷൻ, ഓരോ നീക്കത്തിലും അല്ലെങ്കിൽ ഗെയിം മുഴുവൻ എത്രത്തോളം നന്നായി ചെയ്തുവെന്ന് പറയുന്നവ.

മറ്റു മെഷീൻ ലേണിംഗ് തരംകളിൽ നിന്നും RL-ന്റെ പ്രധാന വ്യത്യാസം, RL-ൽ സാധാരണയായി ഗെയിം അവസാനിക്കാതെ നമുക്ക് ജയിച്ചോ തോറ്റോ എന്ന് അറിയില്ല എന്നതാണ്. അതിനാൽ, ഒരു പ്രത്യേക നീക്കം മാത്രം നല്ലതാണോ അല്ലയോ എന്ന് പറയാൻ കഴിയില്ല - ഗെയിം അവസാനം മാത്രമേ നമുക്ക് റിവാർഡ് ലഭിക്കൂ. നമ്മുടെ ലക്ഷ്യം അനിശ്ചിത സാഹചര്യങ്ങളിൽ മോഡൽ പരിശീലിപ്പിക്കാൻ സഹായിക്കുന്ന ആൽഗോരിതങ്ങൾ രൂപകൽപ്പന ചെയ്യുകയാണ്. നാം Q-ലേണിംഗ് എന്ന RL ആൽഗോരിതം പഠിക്കും.

പാഠങ്ങൾ

  1. റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗും Q-ലേണിംഗും പരിചയം
  2. ജിം സിമുലേഷൻ പരിസ്ഥിതി ഉപയോഗിക്കൽ

ക്രെഡിറ്റുകൾ

"Introduction to Reinforcement Learning" ♥️ ഉപയോഗിച്ച് എഴുതിയത് Dmitry Soshnikov ആണ്


അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.