विभिन्न LLMs का अन्वेषण और तुलना

ऊपर दी गई छवि पर क्लिक करें इस पाठ का वीडियो देखने के लिए

पिछले पाठ में, हमने देखा कि जनरेटिव AI कैसे तकनीकी परिदृश्य को बदल रहा है, बड़े भाषा मॉडल (LLMs) कैसे काम करते हैं और एक व्यवसाय - जैसे हमारा स्टार्टअप - उन्हें अपने उपयोग मामलों में कैसे लागू कर सकता है और विकास कर सकता है! इस अध्याय में, हम विभिन्न प्रकार के बड़े भाषा मॉडलों (LLMs) की तुलना और विरोधाभास करने जा रहे हैं ताकि उनके फायदे और नुकसान को समझा जा सके।

हमारे स्टार्टअप की यात्रा का अगला कदम वर्तमान LLMs परिदृश्य का अन्वेषण करना और यह समझना है कि कौन सा हमारे उपयोग मामले के लिए उपयुक्त है।

परिचय

इस पाठ में शामिल होगा:

वर्तमान परिदृश्य में विभिन्न प्रकार के LLMs।
Azure में अपने उपयोग मामले के लिए विभिन्न मॉडलों का परीक्षण, पुनरावृत्ति और तुलना।
LLM को कैसे तैनात करें।

सीखने के लक्ष्य

इस पाठ को पूरा करने के बाद, आप सक्षम होंगे:

अपने उपयोग मामले के लिए सही मॉडल का चयन करना।
यह समझना कि अपने मॉडल का प्रदर्शन कैसे परीक्षण, पुनरावृत्ति और सुधार करें।
यह जानना कि व्यवसाय मॉडल कैसे तैनात करते हैं।

विभिन्न प्रकार के LLMs को समझें

LLMs को उनके आर्किटेक्चर, प्रशिक्षण डेटा और उपयोग मामले के आधार पर कई श्रेणियों में वर्गीकृत किया जा सकता है। इन भिन्नताओं को समझना हमारे स्टार्टअप को सही मॉडल चुनने में मदद करेगा और यह समझने में मदद करेगा कि प्रदर्शन को कैसे परीक्षण, पुनरावृत्ति और सुधार करें।

LLM मॉडलों के कई प्रकार हैं, आपका मॉडल चयन इस पर निर्भर करता है कि आप उन्हें किस उद्देश्य के लिए उपयोग करना चाहते हैं, आपका डेटा, आप कितना खर्च करने के लिए तैयार हैं और अन्य कारक।

यदि आप मॉडलों का उपयोग टेक्स्ट, ऑडियो, वीडियो, इमेज जनरेशन आदि के लिए करना चाहते हैं, तो आप एक अलग प्रकार के मॉडल का चयन कर सकते हैं।

ऑडियो और स्पीच रिकग्निशन। इस उद्देश्य के लिए, व्हिस्पर-प्रकार के मॉडल एक बेहतरीन विकल्प हैं क्योंकि वे सामान्य-उद्देश्य वाले हैं और स्पीच रिकग्निशन के लिए बनाए गए हैं। यह विविध ऑडियो पर प्रशिक्षित है और बहुभाषी स्पीच रिकग्निशन कर सकता है। व्हिस्पर प्रकार के मॉडलों के बारे में अधिक जानें।
इमेज जनरेशन। इमेज जनरेशन के लिए, DALL-E और Midjourney दो बहुत प्रसिद्ध विकल्प हैं। DALL-E Azure OpenAI द्वारा प्रदान किया जाता है। DALL-E के बारे में अधिक पढ़ें और इस पाठ्यक्रम के अध्याय 9 में भी।
टेक्स्ट जनरेशन। अधिकांश मॉडल टेक्स्ट जनरेशन पर प्रशिक्षित होते हैं और आपके पास GPT-3.5 से GPT-4 तक के कई विकल्प होते हैं। वे अलग-अलग लागत पर आते हैं, जिसमें GPT-4 सबसे महंगा है। यह Azure OpenAI प्लेग्राउंड में देखने लायक है कि कौन से मॉडल क्षमता और लागत के मामले में आपकी आवश्यकताओं के लिए सबसे उपयुक्त हैं।
मल्टी-मोडैलिटी। यदि आप इनपुट और आउटपुट में कई प्रकार के डेटा को संभालने की तलाश में हैं, तो आप gpt-4 turbo with vision या gpt-4o जैसे मॉडलों को देख सकते हैं - OpenAI मॉडलों के नवीनतम संस्करण - जो प्राकृतिक भाषा प्रसंस्करण को दृश्य समझ के साथ जोड़ने में सक्षम हैं, जिससे मल्टी-मोडल इंटरफेस के माध्यम से इंटरैक्शन संभव हो सके।

मॉडल का चयन करने का मतलब है कि आपको कुछ बुनियादी क्षमताएं मिलती हैं, जो शायद पर्याप्त नहीं हों। अक्सर आपके पास कंपनी-विशिष्ट डेटा होता है जिसे आपको किसी तरह LLM को बताना होता है। इसे कैसे करना है, इसके बारे में अधिक जानकारी आगामी अनुभागों में दी जाएगी।

फाउंडेशन मॉडल बनाम LLMs

फाउंडेशन मॉडल शब्द स्टैनफोर्ड शोधकर्ताओं द्वारा गढ़ा गया था और इसे एक AI मॉडल के रूप में परिभाषित किया गया है जो कुछ मानदंडों का पालन करता है, जैसे:

वे अनसुपरवाइज्ड लर्निंग या सेल्फ-सुपरवाइज्ड लर्निंग का उपयोग करके प्रशिक्षित होते हैं, जिसका अर्थ है कि वे अनलेबल्ड मल्टी-मोडल डेटा पर प्रशिक्षित होते हैं, और उनके प्रशिक्षण प्रक्रिया के लिए मानव एनोटेशन या डेटा की लेबलिंग की आवश्यकता नहीं होती है।
वे बहुत बड़े मॉडल होते हैं, जो बहुत गहरे न्यूरल नेटवर्क पर आधारित होते हैं और अरबों पैरामीटर पर प्रशिक्षित होते हैं।
वे सामान्यतः अन्य मॉडलों के लिए 'फाउंडेशन' के रूप में सेवा करने के लिए बनाए जाते हैं, जिसका अर्थ है कि उन्हें अन्य मॉडलों के लिए प्रारंभिक बिंदु के रूप में उपयोग किया जा सकता है, जिसे फाइन-ट्यूनिंग द्वारा बनाया जा सकता है।

छवि स्रोत: फाउंडेशन मॉडल और बड़े भाषा मॉडलों के लिए आवश्यक गाइड | बाबर एम भट्टी | मीडियम

इस भिन्नता को और स्पष्ट करने के लिए, चलिए ChatGPT का उदाहरण लेते हैं। ChatGPT का पहला संस्करण बनाने के लिए, GPT-3.5 नामक एक मॉडल ने फाउंडेशन मॉडल के रूप में सेवा की। इसका मतलब है कि OpenAI ने कुछ चैट-विशिष्ट डेटा का उपयोग करके GPT-3.5 का एक ट्यून किया हुआ संस्करण बनाया जो चैटबॉट्स जैसे संवादात्मक परिदृश्यों में अच्छा प्रदर्शन करने में विशेषज्ञ था।

छवि स्रोत: 2108.07258.pdf (arxiv.org)

ओपन सोर्स बनाम प्रोपाइटरी मॉडल

LLMs को एक और तरीके से वर्गीकृत किया जा सकता है कि वे ओपन सोर्स हैं या प्रोपाइटरी।

ओपन-सोर्स मॉडल वे मॉडल हैं जो जनता के लिए उपलब्ध कराए जाते हैं और कोई भी उनका उपयोग कर सकता है। ये अक्सर उस कंपनी द्वारा उपलब्ध कराए जाते हैं जिसने उन्हें बनाया है, या शोध समुदाय द्वारा। इन मॉडलों को निरीक्षण, संशोधित और LLMs के विभिन्न उपयोग मामलों के लिए अनुकूलित किया जा सकता है। हालांकि, वे हमेशा उत्पादन उपयोग के लिए अनुकूलित नहीं होते हैं, और प्रोपाइटरी मॉडलों जितने प्रभावी नहीं हो सकते। साथ ही, ओपन-सोर्स मॉडलों के लिए फंडिंग सीमित हो सकती है, और उन्हें लंबे समय तक बनाए नहीं रखा जा सकता है या नवीनतम शोध के साथ अपडेट नहीं किया जा सकता है। लोकप्रिय ओपन-सोर्स मॉडलों के उदाहरणों में Alpaca, Bloom और LLaMA शामिल हैं।

प्रोपाइटरी मॉडल वे मॉडल हैं जो किसी कंपनी के स्वामित्व में होते हैं और जनता के लिए उपलब्ध नहीं कराए जाते। ये मॉडल अक्सर उत्पादन उपयोग के लिए अनुकूलित होते हैं। हालांकि, इन्हें निरीक्षण, संशोधित या विभिन्न उपयोग मामलों के लिए अनुकूलित करने की अनुमति नहीं होती है। साथ ही, ये हमेशा मुफ्त में उपलब्ध नहीं होते हैं, और उपयोग के लिए सदस्यता या भुगतान की आवश्यकता हो सकती है। इसके अलावा, उपयोगकर्ताओं के पास उस डेटा पर नियंत्रण नहीं होता है जिसका उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जिसका मतलब है कि उन्हें डेटा गोपनीयता और AI के जिम्मेदार उपयोग सुनिश्चित करने के लिए मॉडल मालिक पर भरोसा करना चाहिए। लोकप्रिय प्रोपाइटरी मॉडलों के उदाहरणों में OpenAI मॉडल, Google Bard या Claude 2 शामिल हैं।

एम्बेडिंग बनाम इमेज जनरेशन बनाम टेक्स्ट और कोड जनरेशन

LLMs को उनके द्वारा उत्पन्न आउटपुट के आधार पर भी वर्गीकृत किया जा सकता है।

एम्बेडिंग वे मॉडल हैं जो टेक्स्ट को एक संख्यात्मक रूप में बदल सकते हैं, जिसे एम्बेडिंग कहा जाता है, जो इनपुट टेक्स्ट का संख्यात्मक प्रतिनिधित्व है। एम्बेडिंग मशीनों के लिए शब्दों या वाक्यों के बीच संबंधों को समझना आसान बनाते हैं और अन्य मॉडलों द्वारा इनपुट के रूप में उपयोग किए जा सकते हैं, जैसे कि वर्गीकरण मॉडल या क्लस्टरिंग मॉडल जो संख्यात्मक डेटा पर बेहतर प्रदर्शन करते हैं। एम्बेडिंग मॉडल अक्सर ट्रांसफर लर्निंग के लिए उपयोग किए जाते हैं, जहां एक मॉडल एक सरोगेट कार्य के लिए बनाया जाता है जिसके लिए डेटा की प्रचुरता होती है, और फिर मॉडल वेट्स (एम्बेडिंग) का उपयोग अन्य डाउनस्ट्रीम कार्यों के लिए किया जाता है। इस श्रेणी का एक उदाहरण OpenAI एम्बेडिंग है।

इमेज जनरेशन मॉडल वे मॉडल हैं जो छवियां उत्पन्न करते हैं। ये मॉडल अक्सर इमेज एडिटिंग, इमेज सिंथेसिस और इमेज ट्रांसलेशन के लिए उपयोग किए जाते हैं। इमेज जनरेशन मॉडल अक्सर छवियों के बड़े डेटासेट पर प्रशिक्षित होते हैं, जैसे LAION-5B, और नई छवियां उत्पन्न करने या मौजूदा छवियों को संपादित करने के लिए उपयोग किए जा सकते हैं। उदाहरणों में DALL-E-3 और Stable Diffusion मॉडल शामिल हैं।

टेक्स्ट और कोड जनरेशन मॉडल वे मॉडल हैं जो टेक्स्ट या कोड उत्पन्न करते हैं। ये मॉडल अक्सर टेक्स्ट सारांश, अनुवाद और प्रश्न उत्तर के लिए उपयोग किए जाते हैं। टेक्स्ट जनरेशन मॉडल अक्सर टेक्स्ट के बड़े डेटासेट पर प्रशिक्षित होते हैं, जैसे BookCorpus, और नई टेक्स्ट उत्पन्न करने या प्रश्नों का उत्तर देने के लिए उपयोग किए जा सकते हैं। कोड जनरेशन मॉडल, जैसे CodeParrot, अक्सर कोड के बड़े डेटासेट पर प्रशिक्षित होते हैं, जैसे GitHub, और नई कोड उत्पन्न करने या मौजूदा कोड में बग्स को ठीक करने के लिए उपयोग किए जा सकते हैं।

एनकोडर-डिकोडर बनाम केवल डिकोडर

LLMs के विभिन्न प्रकार के आर्किटेक्चर के बारे में बात करने के लिए, चलिए एक उदाहरण का उपयोग करते हैं।

कल्पना करें कि आपके प्रबंधक ने आपको छात्रों के लिए एक क्विज़ लिखने का कार्य दिया है। आपके पास दो सहयोगी हैं; एक सामग्री बनाने का काम करता है और दूसरा उसकी समीक्षा करता है।

सामग्री निर्माता केवल डिकोडर मॉडल की तरह है, वह विषय को देख सकता है और जो आपने पहले लिखा है उसे देखकर उस पर आधारित पाठ्यक्रम लिख सकता है। वे आकर्षक और जानकारीपूर्ण सामग्री लिखने में बहुत अच्छे हैं, लेकिन वे विषय और सीखने के उद्देश्यों को समझने में बहुत अच्छे नहीं हैं। डिकोडर मॉडल के कुछ उदाहरण GPT परिवार के मॉडल हैं, जैसे GPT-3।

समीक्षक केवल एनकोडर मॉडल की तरह है, वह लिखे गए पाठ्यक्रम और उत्तरों को देखता है, उनके बीच संबंध को नोटिस करता है और संदर्भ को समझता है, लेकिन वह सामग्री उत्पन्न करने में अच्छा नहीं है। एनकोडर मॉडल का एक उदाहरण BERT होगा।

कल्पना करें कि हमारे पास कोई ऐसा व्यक्ति भी हो सकता है जो क्विज़ बना और उसकी समीक्षा कर सके, यह एक एनकोडर-डिकोडर मॉडल है। कुछ उदाहरण BART और T5 होंगे।

सेवा बनाम मॉडल

अब, चलिए सेवा और मॉडल के बीच के अंतर के बारे में बात करते हैं। सेवा एक उत्पाद है जो क्लाउड सेवा प्रदाता द्वारा पेश किया जाता है, और अक्सर मॉडलों, डेटा और अन्य घटकों का संयोजन होता है। एक मॉडल सेवा का मुख्य घटक होता है, और अक्सर एक फाउंडेशन मॉडल होता है, जैसे कि LLM।

सेवाएं अक्सर उत्पादन उपयोग के लिए अनुकूलित होती हैं और अक्सर ग्राफिकल यूजर इंटरफेस के माध्यम से उपयोग करने में आसान होती हैं। हालांकि, सेवाएं हमेशा मुफ्त में उपलब्ध नहीं होती हैं, और उपयोग के लिए सदस्यता या भुगतान की आवश्यकता हो सकती है, सेवा मालिक के उपकरण और संसाधनों का लाभ उठाने, खर्चों को अनुकूलित करने और आसानी से स्केल करने के बदले। एक सेवा का उदाहरण Azure OpenAI Service है, जो एक पे-एज़-यू-गो दर योजना प्रदान करता है, जिसका अर्थ है कि उपयोगकर्ताओं से सेवा का उपयोग करने की मात्रा के अनुपात में शुल्क लिया जाता है। साथ ही, Azure OpenAI Service मॉडल की क्षमताओं के ऊपर एंटरप्राइज-ग्रेड सुरक्षा और जिम्मेदार AI फ्रेमवर्क प्रदान करता है।

मॉडल केवल न्यूरल नेटवर्क होते हैं, जिनमें पैरामीटर, वेट्स और अन्य होते हैं। कंपनियों को स्थानीय रूप से चलाने की अनुमति देते हैं, हालांकि, उन्हें उपकरण खरीदने, स्केल करने के लिए संरचना बनाने और लाइसेंस खरीदने या ओपन-सोर्स मॉडल का उपयोग करने की आवश्यकता होगी। LLaMA जैसे मॉडल का उपयोग किया जा सकता है, जिसके लिए मॉडल को चलाने के लिए कंप्यूटेशनल पावर की आवश्यकता होती है।

Azure पर प्रदर्शन को समझने के लिए विभिन्न मॉडलों के साथ परीक्षण और पुनरावृत्ति कैसे करें

एक बार जब हमारी टीम ने वर्तमान LLMs परिदृश्य का अन्वेषण कर लिया और उनके परिदृश्यों के लिए कुछ अच्छे उम्मीदवारों की पहचान कर ली, तो अगला कदम उनके डेटा और उनके वर्कलोड पर उनका परीक्षण करना है। यह एक पुनरावृत्त प्रक्रिया है, जो प्रयोगों और मापों द्वारा की जाती है। हमने पिछले पैराग्राफों में जिन मॉडलों का उल्लेख किया है (जैसे OpenAI मॉडल, Llama2 जैसे ओपन सोर्स मॉडल, और Hugging Face ट्रांसफॉर्मर्स), वे Azure AI Studio के Model Catalog में उपलब्ध हैं।

Azure AI Studio एक क्लाउड प्लेटफ़ॉर्म है जिसे डेवलपर्स के लिए जनरेटिव AI एप्लिकेशन बनाने और पूरे विकास चक्र - प्रयोग से लेकर मूल्यांकन तक - प्रबंधित करने के लिए डिज़ाइन किया गया है। यह सभी Azure AI सेवाओं को एक ही हब में एक उपयोगी GUI के साथ जोड़ता है। Azure AI Studio में Model Catalog उपयोगकर्ता को निम्नलिखित कार्य करने में सक्षम बनाता है:

कैटलॉग में इच्छित Foundation Model को ढूंढें - चाहे वह मालिकाना हो या ओपन सोर्स, कार्य, लाइसेंस, या नाम के आधार पर फ़िल्टर करें। खोज को बेहतर बनाने के लिए, मॉडल को संग्रहों में व्यवस्थित किया गया है, जैसे Azure OpenAI संग्रह, Hugging Face संग्रह, और अन्य।

मॉडल कार्ड की समीक्षा करें, जिसमें उपयोग का विस्तृत विवरण, प्रशिक्षण डेटा, कोड नमूने और आंतरिक मूल्यांकन लाइब्रेरी पर मूल्यांकन परिणाम शामिल हैं।

उद्योग में उपलब्ध मॉडलों और डेटा सेटों के बीच बेंचमार्क की तुलना करें ताकि यह आकलन किया जा सके कि कौन सा व्यवसाय परिदृश्य के लिए उपयुक्त है, Model Benchmarks पैन के माध्यम से।

मॉडल के प्रदर्शन को किसी विशिष्ट कार्यभार में सुधारने के लिए कस्टम प्रशिक्षण डेटा पर मॉडल को फाइन-ट्यून करें, Azure AI Studio की प्रयोग और ट्रैकिंग क्षमताओं का लाभ उठाते हुए।

मूल प्री-ट्रेंड मॉडल या फाइन-ट्यून किए गए संस्करण को रिमोट रियल टाइम इंफरेंस - प्रबंधित कंप्यूट - या सर्वरलेस API एंडपॉइंट - pay-as-you-go - पर तैनात करें ताकि एप्लिकेशन इसे उपयोग कर सकें।

Note

कैटलॉग में सभी मॉडल वर्तमान में फाइन-ट्यूनिंग और/या pay-as-you-go तैनाती के लिए उपलब्ध नहीं हैं। मॉडल की क्षमताओं और सीमाओं के विवरण के लिए मॉडल कार्ड की जांच करें।

LLM परिणामों में सुधार करना

हमने अपने स्टार्टअप टीम के साथ विभिन्न प्रकार के LLMs और एक क्लाउड प्लेटफ़ॉर्म (Azure Machine Learning) का पता लगाया है जो हमें विभिन्न मॉडलों की तुलना करने, उन्हें परीक्षण डेटा पर मूल्यांकन करने, प्रदर्शन सुधारने और उन्हें इंफरेंस एंडपॉइंट्स पर तैनात करने में सक्षम बनाता है।

लेकिन उन्हें कब एक प्री-ट्रेंड मॉडल का उपयोग करने के बजाय मॉडल को फाइन-ट्यून करना चाहिए? क्या विशिष्ट कार्यभार पर मॉडल प्रदर्शन सुधारने के लिए अन्य दृष्टिकोण हैं?

एक व्यवसाय LLM से आवश्यक परिणाम प्राप्त करने के लिए कई दृष्टिकोण अपना सकता है। आप उत्पादन में LLM तैनात करते समय विभिन्न प्रकार के मॉडलों का चयन कर सकते हैं, जिनमें प्रशिक्षण के विभिन्न स्तर होते हैं, और जिनकी जटिलता, लागत और गुणवत्ता अलग-अलग होती है। यहां कुछ अलग-अलग दृष्टिकोण दिए गए हैं:

प्रॉम्प्ट इंजीनियरिंग विद कॉन्टेक्स्ट। विचार यह है कि जब आप प्रॉम्प्ट करते हैं तो पर्याप्त संदर्भ प्रदान करें ताकि आपको आवश्यक उत्तर मिल सके।
रिट्रीवल ऑगमेंटेड जनरेशन, RAG। आपका डेटा उदाहरण के लिए किसी डेटाबेस या वेब एंडपॉइंट में हो सकता है। यह सुनिश्चित करने के लिए कि यह डेटा, या इसका एक हिस्सा, प्रॉम्प्टिंग के समय शामिल है, आप प्रासंगिक डेटा को प्राप्त कर सकते हैं और इसे उपयोगकर्ता के प्रॉम्प्ट का हिस्सा बना सकते हैं।
फाइन-ट्यून किया गया मॉडल। यहां, आपने मॉडल को अपने डेटा पर और अधिक प्रशिक्षित किया है, जिससे मॉडल आपकी आवश्यकताओं के लिए अधिक सटीक और उत्तरदायी हो गया है, लेकिन यह महंगा हो सकता है।

Img source: Four Ways that Enterprises Deploy LLMs | Fiddler AI Blog

प्रॉम्प्ट इंजीनियरिंग विद कॉन्टेक्स्ट

प्री-ट्रेंड LLMs सामान्यीकृत प्राकृतिक भाषा कार्यों पर बहुत अच्छा काम करते हैं, यहां तक कि उन्हें एक छोटे प्रॉम्प्ट के साथ कॉल करने पर भी, जैसे कि पूरा करने के लिए एक वाक्य या एक प्रश्न - जिसे "ज़ीरो-शॉट" लर्निंग कहा जाता है।

हालांकि, जितना अधिक उपयोगकर्ता अपनी क्वेरी को फ्रेम कर सकते हैं, एक विस्तृत अनुरोध और उदाहरणों के साथ - कॉन्टेक्स्ट - उतना ही सटीक और उपयोगकर्ता की अपेक्षाओं के करीब उत्तर होगा। इस मामले में, हम "वन-शॉट" लर्निंग के बारे में बात करते हैं यदि प्रॉम्प्ट में केवल एक उदाहरण शामिल है और "फ्यू-शॉट लर्निंग" यदि इसमें कई उदाहरण शामिल हैं। प्रॉम्प्ट इंजीनियरिंग विद कॉन्टेक्स्ट शुरू करने के लिए सबसे किफायती दृष्टिकोण है।

रिट्रीवल ऑगमेंटेड जनरेशन (RAG)

LLMs की यह सीमा होती है कि वे केवल उस डेटा का उपयोग कर सकते हैं जो उनके प्रशिक्षण के दौरान उपयोग किया गया है। इसका मतलब है कि वे अपने प्रशिक्षण प्रक्रिया के बाद हुई घटनाओं के बारे में कुछ नहीं जानते हैं, और वे गैर-सार्वजनिक जानकारी (जैसे कंपनी डेटा) तक पहुंच नहीं सकते हैं।

इसे RAG के माध्यम से दूर किया जा सकता है, एक तकनीक जो प्रॉम्प्ट को बाहरी डेटा के साथ दस्तावेज़ों के टुकड़ों के रूप में बढ़ाती है, प्रॉम्प्ट की लंबाई सीमा को ध्यान में रखते हुए। यह Azure Vector Search जैसे वेक्टर डेटाबेस टूल्स द्वारा समर्थित है जो पूर्व-निर्धारित डेटा स्रोतों से उपयोगी टुकड़ों को पुनः प्राप्त करते हैं और उन्हें प्रॉम्प्ट कॉन्टेक्स्ट में जोड़ते हैं।

यह तकनीक तब बहुत सहायक होती है जब किसी व्यवसाय के पास पर्याप्त डेटा, पर्याप्त समय, या LLM को फाइन-ट्यून करने के लिए संसाधन नहीं होते हैं, लेकिन फिर भी वे किसी विशिष्ट कार्यभार पर प्रदर्शन सुधारना चाहते हैं और वास्तविकता की गलत व्याख्या या हानिकारक सामग्री के जोखिम को कम करना चाहते हैं।

फाइन-ट्यून किया गया मॉडल

फाइन-ट्यूनिंग एक प्रक्रिया है जो ट्रांसफर लर्निंग का उपयोग करती है ताकि मॉडल को डाउनस्ट्रीम कार्य के लिए 'अनुकूलित' किया जा सके या किसी विशिष्ट समस्या को हल किया जा सके। फ्यू-शॉट लर्निंग और RAG से अलग, यह एक नया मॉडल उत्पन्न करता है, जिसमें अपडेटेड वेट्स और बायसेस होते हैं। इसमें एकल इनपुट (प्रॉम्प्ट) और उसके संबंधित आउटपुट (कंप्लीशन) के प्रशिक्षण उदाहरणों का सेट आवश्यक होता है।

यह पसंदीदा दृष्टिकोण होगा यदि:

फाइन-ट्यून किए गए मॉडल का उपयोग करना। एक व्यवसाय कम सक्षम फाइन-ट्यून किए गए मॉडल (जैसे एम्बेडिंग मॉडल) का उपयोग करना चाहता है बजाय उच्च प्रदर्शन वाले मॉडलों के, जिससे अधिक किफायती और तेज़ समाधान प्राप्त होता है।
लेटेंसी पर विचार करना। किसी विशिष्ट उपयोग-केस के लिए लेटेंसी महत्वपूर्ण है, इसलिए बहुत लंबे प्रॉम्प्ट का उपयोग करना संभव नहीं है या मॉडल से सीखे जाने वाले उदाहरणों की संख्या प्रॉम्प्ट की लंबाई सीमा में फिट नहीं होती।
अप-टू-डेट रहना। किसी व्यवसाय के पास उच्च गुणवत्ता वाले डेटा और ग्राउंड ट्रुथ लेबल्स हैं और इस डेटा को समय के साथ अद्यतन बनाए रखने के लिए आवश्यक संसाधन हैं।

प्रशिक्षित मॉडल

शुरुआत से LLM को प्रशिक्षित करना निस्संदेह सबसे कठिन और सबसे जटिल दृष्टिकोण है, जिसके लिए बड़े पैमाने पर डेटा, कुशल संसाधन, और उपयुक्त कंप्यूटेशनल पावर की आवश्यकता होती है। इस विकल्प पर केवल तभी विचार किया जाना चाहिए जब किसी व्यवसाय के पास डोमेन-विशिष्ट उपयोग-केस और डोमेन-केंद्रित डेटा की बड़ी मात्रा हो।

ज्ञान जांच

LLM कंप्लीशन परिणामों को सुधारने के लिए एक अच्छा दृष्टिकोण क्या हो सकता है?

प्रॉम्प्ट इंजीनियरिंग विद कॉन्टेक्स्ट
RAG
फाइन-ट्यून किया गया मॉडल

A:3, यदि आपके पास समय, संसाधन और उच्च गुणवत्ता वाला डेटा है, तो फाइन-ट्यूनिंग अप-टू-डेट रहने के लिए बेहतर विकल्प है। हालांकि, यदि आप चीजों को सुधारने की कोशिश कर रहे हैं और आपके पास समय की कमी है, तो पहले RAG पर विचार करना उचित होगा।

🚀 चुनौती

यह जानने के लिए और पढ़ें कि आप अपने व्यवसाय के लिए RAG का उपयोग कैसे कर सकते हैं।

शानदार काम, अपनी सीख जारी रखें

इस पाठ को पूरा करने के बाद, हमारे Generative AI Learning collection को देखें ताकि आप अपनी जनरेटिव AI ज्ञान को और बढ़ा सकें!

Lesson 3 पर जाएं जहां हम देखेंगे कि जिम्मेदारी से जनरेटिव AI के साथ निर्माण कैसे करें!

अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

विभिन्न LLMs का अन्वेषण और तुलना

परिचय

सीखने के लक्ष्य