परिचय: रिइनफोर्समेंट लर्निंग

रिइनफोर्समेंट लर्निंग (RL) को मशीन लर्निंग के तीन मुख्य दृष्टिकोणों में से एक माना जाता है, अन्य दो हैं सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग। RL निर्णय लेने पर आधारित है: सही निर्णय लेना या कम से कम उनसे सीखना।

कल्पना करें कि आपके पास एक सिम्युलेटेड वातावरण है, जैसे कि शेयर बाजार। यदि आप कोई विशेष नियम लागू करते हैं, तो क्या इसका सकारात्मक या नकारात्मक प्रभाव पड़ता है? यदि कुछ नकारात्मक होता है, तो आपको इस नकारात्मक रिइनफोर्समेंट से सीखना होगा और अपनी दिशा बदलनी होगी। यदि परिणाम सकारात्मक है, तो आपको उस सकारात्मक रिइनफोर्समेंट पर आगे बढ़ना होगा।

पीटर और उसके दोस्त भूखे भेड़िये से बचने की कोशिश कर रहे हैं! छवि: जेन लूपर

क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

पीटर और भेड़िया एक संगीत परीकथा है जिसे रूसी संगीतकार सर्गेई प्रोकोफिएव ने लिखा था। यह कहानी युवा पायनियर पीटर की है, जो बहादुरी से अपने घर से बाहर निकलकर जंगल में भेड़िये का पीछा करता है। इस खंड में, हम मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करेंगे जो पीटर की मदद करेंगे:

आसपास के क्षेत्र का पता लगाएं और एक आदर्श नेविगेशन मानचित्र बनाएं।
स्केटबोर्ड का उपयोग करना और उस पर संतुलन बनाना सीखें, ताकि वह तेजी से घूम सके।

🎥 ऊपर दी गई छवि पर क्लिक करें और प्रोकोफिएव द्वारा "पीटर और भेड़िया" सुनें।

रिइनफोर्समेंट लर्निंग

पिछले खंडों में, आपने मशीन लर्निंग समस्याओं के दो उदाहरण देखे:

सुपरवाइज्ड, जहां हमारे पास डेटा सेट होते हैं जो उस समस्या के संभावित समाधान सुझाते हैं जिसे हम हल करना चाहते हैं। क्लासिफिकेशन और रेग्रेशन सुपरवाइज्ड लर्निंग कार्य हैं।
अनसुपरवाइज्ड, जिसमें हमारे पास लेबल वाले प्रशिक्षण डेटा नहीं होते। अनसुपरवाइज्ड लर्निंग का मुख्य उदाहरण क्लस्टरिंग है।

इस खंड में, हम आपको एक नए प्रकार की लर्निंग समस्या से परिचित कराएंगे, जिसमें लेबल वाले प्रशिक्षण डेटा की आवश्यकता नहीं होती। ऐसी समस्याओं के कई प्रकार होते हैं:

सेमी-सुपरवाइज्ड लर्निंग, जहां हमारे पास बहुत सारा अनलेबल्ड डेटा होता है जिसे मॉडल को प्री-ट्रेन करने के लिए उपयोग किया जा सकता है।
रिइनफोर्समेंट लर्निंग, जिसमें एक एजेंट सिम्युलेटेड वातावरण में प्रयोग करके व्यवहार करना सीखता है।

उदाहरण - कंप्यूटर गेम

मान लीजिए आप कंप्यूटर को कोई गेम खेलना सिखाना चाहते हैं, जैसे कि शतरंज या सुपर मारियो। कंप्यूटर को गेम खेलने के लिए, हमें यह सिखाना होगा कि गेम के प्रत्येक स्थिति में कौन सा कदम उठाना है। हालांकि यह एक क्लासिफिकेशन समस्या जैसा लग सकता है, लेकिन ऐसा नहीं है - क्योंकि हमारे पास गेम की स्थितियों और उनके संबंधित क्रियाओं का डेटा सेट नहीं है। हालांकि हमारे पास कुछ डेटा हो सकता है, जैसे कि मौजूदा शतरंज मैच या सुपर मारियो खेलने वाले खिलाड़ियों की रिकॉर्डिंग, लेकिन यह डेटा संभवतः पर्याप्त संख्या में संभावित स्थितियों को कवर नहीं करेगा।

मौजूदा गेम डेटा की तलाश करने के बजाय, रिइनफोर्समेंट लर्निंग (RL) इस विचार पर आधारित है कि कंप्यूटर को बार-बार गेम खेलने दें और परिणामों का अवलोकन करें। इसलिए, रिइनफोर्समेंट लर्निंग लागू करने के लिए हमें दो चीजों की आवश्यकता होती है:

एक वातावरण और एक सिम्युलेटर, जो हमें बार-बार गेम खेलने की अनुमति देता है। यह सिम्युलेटर सभी गेम नियमों, संभावित स्थितियों और क्रियाओं को परिभाषित करेगा।
एक रिवॉर्ड फंक्शन, जो हमें प्रत्येक कदम या गेम के दौरान हमारे प्रदर्शन के बारे में बताएगा।

अन्य प्रकार की मशीन लर्निंग और RL के बीच मुख्य अंतर यह है कि RL में हमें आमतौर पर यह नहीं पता होता कि हम जीतेंगे या हारेंगे जब तक कि गेम समाप्त न हो जाए। इसलिए, हम यह नहीं कह सकते कि कोई विशेष कदम अकेले अच्छा है या नहीं - हमें केवल गेम के अंत में रिवॉर्ड मिलता है। और हमारा लक्ष्य ऐसे एल्गोरिदम डिज़ाइन करना है जो हमें अनिश्चित परिस्थितियों में मॉडल को प्रशिक्षित करने की अनुमति दें। हम एक RL एल्गोरिदम के बारे में सीखेंगे जिसे Q-लर्निंग कहा जाता है।

पाठ

क्रेडिट्स

"रिइनफोर्समेंट लर्निंग का परिचय" को ♥️ के साथ दिमित्री सॉश्निकोव द्वारा लिखा गया है।

अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

परिचय: रिइनफोर्समेंट लर्निंग

क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

रिइनफोर्समेंट लर्निंग

उदाहरण - कंप्यूटर गेम

पाठ

क्रेडिट्स

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

परिचय: रिइनफोर्समेंट लर्निंग

क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

रिइनफोर्समेंट लर्निंग

उदाहरण - कंप्यूटर गेम

पाठ

क्रेडिट्स