റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിങ്ങിലേക്ക് പരിചയം

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്, RL, സൂപ്പർവൈസ്ഡ് ലേണിംഗിനും അൺസൂപ്പർവൈസ്ഡ് ലേണിംഗിനും അടുത്തുള്ള അടിസ്ഥാന മെഷീൻ ലേണിംഗ് പാരഡൈംസ് ഒന്നായി കാണപ്പെടുന്നു. RL തീരുമാനങ്ങളുമായി ബന്ധപ്പെട്ടതാണ്: ശരിയായ തീരുമാനങ്ങൾ നൽകുക അല്ലെങ്കിൽ കുറഞ്ഞത് അവയിൽ നിന്ന് പഠിക്കുക.

നിങ്ങൾക്ക് സ്റ്റോക്ക് മാർക്കറ്റ് പോലൊരു സിമുലേറ്റഡ് പരിസ്ഥിതി ഉണ്ടെന്ന് കരുതുക. ഒരു നിശ്ചിത നിയന്ത്രണം ഏർപ്പെടുത്തുകയാണെങ്കിൽ എന്ത് സംഭവിക്കും? അത് പോസിറ്റീവ് ഫലമോ നെഗറ്റീവ് ഫലമോ ഉണ്ടാക്കുമോ? എന്തെങ്കിലും നെഗറ്റീവ് സംഭവിച്ചാൽ, നിങ്ങൾക്ക് ഈ നെഗറ്റീവ് റീഇൻഫോഴ്‌സ്‌മെന്റ് സ്വീകരിച്ച് അതിൽ നിന്ന് പഠിച്ച് ദിശ മാറ്റണം. അത് പോസിറ്റീവ് ഫലമായാൽ, നിങ്ങൾക്ക് ആ പോസിറ്റീവ് റീഇൻഫോഴ്‌സ്‌മെന്റ് അടിസ്ഥാനമാക്കി മുന്നോട്ട് പോകണം.

പീറ്ററും അവന്റെ സുഹൃത്തുക്കളും വിശപ്പുള്ള വുൾഫിൽ നിന്ന് രക്ഷപ്പെടണം! ചിത്രം Jen Looper എന്നവന്റെതാണ്

പ്രാദേശിക വിഷയം: പീറ്ററും വുൾഫും (റഷ്യ)

Peter and the Wolf റഷ്യൻ സംഗീതസംവിധായകൻ Sergei Prokofiev എഴുതിയ ഒരു സംഗീതപരമായ പഞ്ചതന്ത്രകഥയാണ്. ഇത് യുവ പയനിയർ പീറ്ററിനെക്കുറിച്ചുള്ള കഥയാണ്, അവൻ ധൈര്യത്തോടെ വീട്ടിൽ നിന്ന് കാട്ടിലെ തുറസ്സിലേക്ക് വുൾഫിനെ പിന്തുടരാൻ പോകുന്നു. ഈ വിഭാഗത്തിൽ, പീറ്ററിന് സഹായകമായ മെഷീൻ ലേണിംഗ് ആൽഗോരിതങ്ങൾ പരിശീലിപ്പിക്കും:

പരിസര പ്രദേശം അന്വേഷിച്ച് മികച്ച നാവിഗേഷൻ മാപ്പ് നിർമ്മിക്കുക
സ്കേറ്റ്ബോർഡ് ഉപയോഗിച്ച് അതിൽ ബാലൻസ് പിടിച്ച് വേഗത്തിൽ ചലിക്കാൻ പഠിക്കുക.

🎥 മുകളിൽ കാണുന്ന ചിത്രത്തിൽ ക്ലിക്ക് ചെയ്ത് പ്രൊകോഫിയേവിന്റെ പീറ്ററും വുൾഫും കേൾക്കൂ

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്

മുൻവകുപ്പുകളിൽ, നിങ്ങൾക്ക് മെഷീൻ ലേണിംഗ് പ്രശ്നങ്ങളുടെ രണ്ട് ഉദാഹരണങ്ങൾ കാണിച്ചിട്ടുണ്ട്:

സൂപ്പർവൈസ്ഡ്, ഇവിടെ നമുക്ക് പ്രശ്നം പരിഹരിക്കാൻ സാമ്പിൾ പരിഹാരങ്ങൾ സൂചിപ്പിക്കുന്ന ഡാറ്റാസെറ്റുകൾ ഉണ്ട്. ക്ലാസിഫിക്കേഷൻയും റെഗ്രഷൻയും സൂപ്പർവൈസ്ഡ് ലേണിംഗ് ടാസ്കുകളാണ്.
അൺസൂപ്പർവൈസ്ഡ്, ഇവിടെ ലേബൽ ചെയ്ത പരിശീലന ഡാറ്റ ഇല്ല. അൺസൂപ്പർവൈസ്ഡ് ലേണിംഗിന്റെ പ്രധാന ഉദാഹരണം ക്ലസ്റ്ററിംഗ് ആണ്.

ഈ വിഭാഗത്തിൽ, ലേബൽ ചെയ്ത പരിശീലന ഡാറ്റ ആവശ്യമില്ലാത്ത പുതിയ തരത്തിലുള്ള ലേണിംഗ് പ്രശ്നം പരിചയപ്പെടുത്തും. ഇത്തരം പ്രശ്നങ്ങളുടെ പല തരങ്ങളുണ്ട്:

സെമി-സൂപ്പർവൈസ്ഡ് ലേണിംഗ്, ഇവിടെ നമുക്ക് പ്രീ-ട്രെയിനിംഗിന് ഉപയോഗിക്കാവുന്ന അനേകം ലേബൽ ചെയ്യാത്ത ഡാറ്റ ഉണ്ട്.
റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്, ഇവിടെ ഒരു ഏജന്റ് സിമുലേറ്റഡ് പരിസ്ഥിതിയിൽ പരീക്ഷണങ്ങൾ നടത്തിക്കൊണ്ട് പെരുമാറുന്നത് പഠിക്കുന്നു.

ഉദാഹരണം - കമ്പ്യൂട്ടർ ഗെയിം

നിങ്ങൾക്ക് ഒരു കമ്പ്യൂട്ടറിനെ ചെസ് പോലുള്ള ഗെയിം കളിക്കാൻ പഠിപ്പിക്കണമെന്ന് കരുതുക, അല്ലെങ്കിൽ സൂപ്പർ മാരിയോ പോലുള്ളത്. കമ്പ്യൂട്ടർ ഗെയിം കളിക്കാൻ, ഓരോ ഗെയിം സ്റ്റേറ്റിലും ഏത് നീക്കം ചെയ്യണമെന്ന് പ്രവചിക്കണം. ഇത് ക്ലാസിഫിക്കേഷൻ പ്രശ്നം പോലെ തോന്നിയേക്കാം, പക്ഷേ അത് അല്ല - കാരണം നമുക്ക് സ്റ്റേറ്റുകളും അനുബന്ധ പ്രവർത്തനങ്ങളും ഉള്ള ഡാറ്റാസെറ്റ് ഇല്ല. നിലവിലുള്ള ചെസ് മത്സരങ്ങൾ അല്ലെങ്കിൽ സൂപ്പർ മാരിയോ കളിക്കുന്ന കളിക്കാരുടെ റെക്കോർഡുകൾ പോലുള്ള ചില ഡാറ്റ ഉണ്ടാകാം, പക്ഷേ ആ ഡാറ്റ സാധ്യതയുള്ള സ്റ്റേറ്റുകളുടെ വലിയ എണ്ണം മതിയായ രീതിയിൽ ഉൾക്കൊള്ളില്ല.

നിലവിലുള്ള ഗെയിം ഡാറ്റ അന്വേഷിക്കുന്നതിന് പകരം, റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് (RL) കമ്പ്യൂട്ടർ പല തവണ കളിക്കട്ടെ എന്ന ആശയത്തെ അടിസ്ഥാനമാക്കുന്നു, ഫലങ്ങൾ നിരീക്ഷിച്ച്. അതിനാൽ, റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് പ്രയോഗിക്കാൻ, നമുക്ക് രണ്ട് കാര്യങ്ങൾ വേണം:

ഒരു പരിസ്ഥിതിയും ഒരു സിമുലേറ്ററും, ഗെയിം പല തവണ കളിക്കാൻ അനുവദിക്കുന്നവ. ഈ സിമുലേറ്റർ എല്ലാ ഗെയിം നിയമങ്ങളും സാധ്യതയുള്ള സ്റ്റേറ്റുകളും പ്രവർത്തനങ്ങളും നിർവചിക്കും.
ഒരു റിവാർഡ് ഫംഗ്ഷൻ, ഓരോ നീക്കത്തിലും അല്ലെങ്കിൽ ഗെയിം മുഴുവൻ എത്രത്തോളം നന്നായി ചെയ്തുവെന്ന് പറയുന്നവ.

മറ്റു മെഷീൻ ലേണിംഗ് തരംകളിൽ നിന്നും RL-ന്റെ പ്രധാന വ്യത്യാസം, RL-ൽ സാധാരണയായി ഗെയിം അവസാനിക്കാതെ നമുക്ക് ജയിച്ചോ തോറ്റോ എന്ന് അറിയില്ല എന്നതാണ്. അതിനാൽ, ഒരു പ്രത്യേക നീക്കം മാത്രം നല്ലതാണോ അല്ലയോ എന്ന് പറയാൻ കഴിയില്ല - ഗെയിം അവസാനം മാത്രമേ നമുക്ക് റിവാർഡ് ലഭിക്കൂ. നമ്മുടെ ലക്ഷ്യം അനിശ്ചിത സാഹചര്യങ്ങളിൽ മോഡൽ പരിശീലിപ്പിക്കാൻ സഹായിക്കുന്ന ആൽഗോരിതങ്ങൾ രൂപകൽപ്പന ചെയ്യുകയാണ്. നാം Q-ലേണിംഗ് എന്ന RL ആൽഗോരിതം പഠിക്കും.

പാഠങ്ങൾ

ക്രെഡിറ്റുകൾ

"Introduction to Reinforcement Learning" ♥️ ഉപയോഗിച്ച് എഴുതിയത് Dmitry Soshnikov ആണ്

അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിങ്ങിലേക്ക് പരിചയം

പ്രാദേശിക വിഷയം: പീറ്ററും വുൾഫും (റഷ്യ)

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്

ഉദാഹരണം - കമ്പ്യൂട്ടർ ഗെയിം

പാഠങ്ങൾ

ക്രെഡിറ്റുകൾ

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിങ്ങിലേക്ക് പരിചയം

പ്രാദേശിക വിഷയം: പീറ്ററും വുൾഫും (റഷ്യ)

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്

ഉദാഹരണം - കമ്പ്യൂട്ടർ ഗെയിം

പാഠങ്ങൾ

ക്രെഡിറ്റുകൾ