Skip to content

Latest commit

 

History

History
58 lines (32 loc) · 11.1 KB

File metadata and controls

58 lines (32 loc) · 11.1 KB

परिचय: रिइनफोर्समेंट लर्निंग

रिइनफोर्समेंट लर्निंग (RL) को मशीन लर्निंग के तीन मुख्य दृष्टिकोणों में से एक माना जाता है, अन्य दो हैं सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग। RL निर्णय लेने पर आधारित है: सही निर्णय लेना या कम से कम उनसे सीखना।

कल्पना करें कि आपके पास एक सिम्युलेटेड वातावरण है, जैसे कि शेयर बाजार। यदि आप कोई विशेष नियम लागू करते हैं, तो क्या इसका सकारात्मक या नकारात्मक प्रभाव पड़ता है? यदि कुछ नकारात्मक होता है, तो आपको इस नकारात्मक रिइनफोर्समेंट से सीखना होगा और अपनी दिशा बदलनी होगी। यदि परिणाम सकारात्मक है, तो आपको उस सकारात्मक रिइनफोर्समेंट पर आगे बढ़ना होगा।

पीटर और भेड़िया

पीटर और उसके दोस्त भूखे भेड़िये से बचने की कोशिश कर रहे हैं! छवि: जेन लूपर

क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

पीटर और भेड़िया एक संगीत परीकथा है जिसे रूसी संगीतकार सर्गेई प्रोकोफिएव ने लिखा था। यह कहानी युवा पायनियर पीटर की है, जो बहादुरी से अपने घर से बाहर निकलकर जंगल में भेड़िये का पीछा करता है। इस खंड में, हम मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करेंगे जो पीटर की मदद करेंगे:

  • आसपास के क्षेत्र का पता लगाएं और एक आदर्श नेविगेशन मानचित्र बनाएं।
  • स्केटबोर्ड का उपयोग करना और उस पर संतुलन बनाना सीखें, ताकि वह तेजी से घूम सके।

पीटर और भेड़िया

🎥 ऊपर दी गई छवि पर क्लिक करें और प्रोकोफिएव द्वारा "पीटर और भेड़िया" सुनें।

रिइनफोर्समेंट लर्निंग

पिछले खंडों में, आपने मशीन लर्निंग समस्याओं के दो उदाहरण देखे:

  • सुपरवाइज्ड, जहां हमारे पास डेटा सेट होते हैं जो उस समस्या के संभावित समाधान सुझाते हैं जिसे हम हल करना चाहते हैं। क्लासिफिकेशन और रेग्रेशन सुपरवाइज्ड लर्निंग कार्य हैं।
  • अनसुपरवाइज्ड, जिसमें हमारे पास लेबल वाले प्रशिक्षण डेटा नहीं होते। अनसुपरवाइज्ड लर्निंग का मुख्य उदाहरण क्लस्टरिंग है।

इस खंड में, हम आपको एक नए प्रकार की लर्निंग समस्या से परिचित कराएंगे, जिसमें लेबल वाले प्रशिक्षण डेटा की आवश्यकता नहीं होती। ऐसी समस्याओं के कई प्रकार होते हैं:

उदाहरण - कंप्यूटर गेम

मान लीजिए आप कंप्यूटर को कोई गेम खेलना सिखाना चाहते हैं, जैसे कि शतरंज या सुपर मारियो। कंप्यूटर को गेम खेलने के लिए, हमें यह सिखाना होगा कि गेम के प्रत्येक स्थिति में कौन सा कदम उठाना है। हालांकि यह एक क्लासिफिकेशन समस्या जैसा लग सकता है, लेकिन ऐसा नहीं है - क्योंकि हमारे पास गेम की स्थितियों और उनके संबंधित क्रियाओं का डेटा सेट नहीं है। हालांकि हमारे पास कुछ डेटा हो सकता है, जैसे कि मौजूदा शतरंज मैच या सुपर मारियो खेलने वाले खिलाड़ियों की रिकॉर्डिंग, लेकिन यह डेटा संभवतः पर्याप्त संख्या में संभावित स्थितियों को कवर नहीं करेगा।

मौजूदा गेम डेटा की तलाश करने के बजाय, रिइनफोर्समेंट लर्निंग (RL) इस विचार पर आधारित है कि कंप्यूटर को बार-बार गेम खेलने दें और परिणामों का अवलोकन करें। इसलिए, रिइनफोर्समेंट लर्निंग लागू करने के लिए हमें दो चीजों की आवश्यकता होती है:

  • एक वातावरण और एक सिम्युलेटर, जो हमें बार-बार गेम खेलने की अनुमति देता है। यह सिम्युलेटर सभी गेम नियमों, संभावित स्थितियों और क्रियाओं को परिभाषित करेगा।

  • एक रिवॉर्ड फंक्शन, जो हमें प्रत्येक कदम या गेम के दौरान हमारे प्रदर्शन के बारे में बताएगा।

अन्य प्रकार की मशीन लर्निंग और RL के बीच मुख्य अंतर यह है कि RL में हमें आमतौर पर यह नहीं पता होता कि हम जीतेंगे या हारेंगे जब तक कि गेम समाप्त न हो जाए। इसलिए, हम यह नहीं कह सकते कि कोई विशेष कदम अकेले अच्छा है या नहीं - हमें केवल गेम के अंत में रिवॉर्ड मिलता है। और हमारा लक्ष्य ऐसे एल्गोरिदम डिज़ाइन करना है जो हमें अनिश्चित परिस्थितियों में मॉडल को प्रशिक्षित करने की अनुमति दें। हम एक RL एल्गोरिदम के बारे में सीखेंगे जिसे Q-लर्निंग कहा जाता है।

पाठ

  1. रिइनफोर्समेंट लर्निंग और Q-लर्निंग का परिचय
  2. जिम सिम्युलेशन वातावरण का उपयोग करना

क्रेडिट्स

"रिइनफोर्समेंट लर्निंग का परिचय" को ♥️ के साथ दिमित्री सॉश्निकोव द्वारा लिखा गया है।


अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।