Skip to content

Latest commit

 

History

History
169 lines (96 loc) · 47.8 KB

File metadata and controls

169 lines (96 loc) · 47.8 KB

உற்பத்தியில் AI ஏஜென்ட்கள்: கண்காணிப்பு திறன் மற்றும் மதிப்பீடு

உற்பத்தியில் AI ஏஜென்ட்கள்

AI ஏஜென்ட்கள் பரிசோதனைப் பிரதிகளைவிட்டு உண்மையான உலக பயன்பாடுகளுக்காக நகரும் போது, அவற்றின் நடத்தையை புரிந்துகொள்வதற்கும், செயல்திறனை கண்காணிப்பதற்கும், மற்றும் அவற்றின் வெளியீடுகளை முறையாக மதிப்பீடு செய்வதற்குமான திறன் முக்கியமாகிறது.

கற்றலின் நோக்கங்கள்

இந்த பாடத்தை முடித்தபின், நீங்கள் அறிந்திருக்கும்/செயல்படுத்தக்கூடியவை:

  • ஏஜென்டின் கண்காணிப்பு திறன் மற்றும் மதிப்பீட்டின் அடிப்படை แนா்கள
  • ஏஜென்ட்களின் செயல்திறன், செலவுகள் மற்றும் பயன்திறனை மேம்படுத்தும் தொழில்நுட்பங்கள்
  • உங்கள் AI ஏஜென்டுகளை என்ன மற்றும் எப்படி முறையாக மதிப்பீடு செய்வது
  • AI ஏஜென்ட்களை உற்பத்திக்கு வெளியிடும்போது செலவுகளை எப்படி கட்டுப்படுத்துவது
  • AutoGen கொண்டு கட்டமைக்கப்பட்ட ஏஜென்ட்களை எப்படி இன்ச்ட்ருமென்ட் செய்வது

இந்தக் குறிக்கோள் உங்கள் "கருப்பு பெட்டி" ஏஜென்டுகளை வெளிப்படையான, நிர்வகிக்கக்கூடிய மற்றும் நம்பகமான கணிப்புகளாக மாற்ற தேவையான அறிவை வழங்குவதாகும்.

குறிப்பு: பாதுகாப்பானதும் நம்பகமானதுமான AI ஏஜென்ட்களை வெளியிடுவது முக்கியமானது. Building Trustworthy AI Agents பாடத்தையும் பார்க்கவும்.

டிரேஸ் மற்றும் ஸ்பான்கள்

கண்காணிப்பு கருவிகள், உதாரணமாக Langfuse அல்லது Microsoft Foundry, பொதுவாக ஏஜென்ட் ஓட்டங்களை டிரேசுகளாக மற்றும் ஸ்பான்களாக பிரதிநிதித்துவம் செய்கின்றன.

  • டிரேஸ் என்பது தொடக்கத்திலிருந்து முடிவுவரை ஒரு முழுமையான ஏஜென்ட் பணியை பிரதிநிதித்துவம் செய்கிறது (உரையாடல், பயனர் கேள்வி கையாளுதல் போன்றவை).
  • ஸ்பான்கள் என்பது டிரேசின் உள்ளே தனித்தனி கட்டங்களாகும் (ஒரு மொழி மாதிரியை அழைப்பு அல்லது தரவைக் மீட்டெடுக்கும் செயல்முறை போன்றவை).

லங்க்ஃப்யூஸில் டிரேஸ் மரம்

கண்காணிப்பு இல்லாமல், ஒரு AI ஏஜென்ட் "கருப்பு பெட்டியாக" இருக்கலாம் — அதன் உள்நிலை நிலைமைகள் மற்றும் காரணமறியச் செயல்முறை இல்லாமல் இருக்கும், இது பிழைகளை கண்டுபிடிக்கவோ அல்லது செயல்திறனை மேம்படுத்தவோ கடினமாக்கும். கண்காணிப்புடன், ஏஜென்ட்கள் "கண்ணாடி பெட்டிகள்" ஆக மாறுகின்றன, இது நம்பிக்கையை கட்டமைக்கவும் மற்றும் அவை எதிர்பார்த்திருப்பபடி செயல்படுவதை உறுதி செய்கின்ற பேச்சுக்களைக் கொடுக்கும்.

உற்பத்தி சூழல்களில் கண்காணிப்பு திறன் ஏன் முக்கியம்

AI ஏஜென்ட்களை உற்பத்தி சூழல்களுக்கு மாற்றும்போது புதிய சவால்கள் மற்றும் தேவைகள் வரன. கண்காணிப்பு இனி "நன்றாக இருக்க வேண்டியது" அல்ல; அது அவசியமான திறனாகும்:

  • தவறுகள் புலனாய்வு மற்றும் மூல காரணம் பகுப்பு: ஏஜென்ட் தவறு செய்கின்றபோது அல்லது எதிர்பாராத வெளியீட்டை தரும்போது, கண்காணிப்பு கருவிகள் பிழையின் மூலத்தை கண்டறிய தேவையான டிரேசுகளை வழங்குகின்றன. இது பல LLM அழைப்புகள், கருவி தொடர்புகள் மற்றும் நிபந்தனைத் தர்க்கங்களை உள்ளடக்கிய சிக்கலான ஏஜென்ட்களில் குறிப்பாக அவசியம்.
  • நெரிசல் மற்றும் செலவு மேலாண்மை: AI ஏஜென்ட்கள் பெரும்பாலும் டோக்கன் அடிப்படையிலோ அழைப்புகளில் அடிப்படையிலோ கட்டணம் செலுத்தப்படும் LLM களும் மற்ற துறைகளில் உள்ள APIs களையும் பயன்படுத்துகின்றன. கண்காணிப்பு இந்த அழைப்புகளைக் கடிதமாக கண்காணிக்க அனுமதிக்கிறது, அதிகமாக நெரிசலோ அல்லது செலவோ வரும் செயல்பாடுகளை அடையாளம் காண உதவுகிறது. இதனால் குழுக்கள் பிராம்ப்ட்களை மேம்படுத்த, குறைந்த செலவுள்ள மாதிரிகளை தேர்வு செய்ய அல்லது செயல்முறை வடிவமைப்புகளை மறுசீரமைக்க முடியும்.
  • நம்பிக்கை, பாதுகாப்பு மற்றும் உடன்பாடு: பல பயன்பாடுகளில், ஏஜென்ட்கள் பாதுகாப்பாகவும் நெறிமுறையாகவும் நடத்தப்படுவது முக்கியம். கண்காணிப்பு ஏஜென்ட் நடவடிக்கைகள் மற்றும் முடிவுகளின் ஆய்வு தடையை வழங்குகிறது. இது prompt injection, தீங்கு விளைவிக்கும் உள்ளடக்கத்தின் உருவாக்கம், அல்லது தனிப்பட்ட அடையாள தகவல்களின் தவறான கையாளுதல் போன்ற சிக்கல்களை கண்டறிந்து நிர்வகிக்க பயன்படுத்தப்படலாம். உதாரணமாக, ஏஜென்ட் ஏன் ஒரு குறிப்பிட்ட பதிலை வழங்கியது அல்லது ஒரு குறிப்பிட்ட கருவியை பயன்படுத்தியது என்பதை புரிந்து கொள்ள டிரேசுகளை மதிப்பாய்வு செய்யலாம்.
  • தொடர்ச்சியான மேம்பாட்டு மடக்குகள்: கண்காணிப்பு தரவு மீள் செட் வளர்ச்சிக்கான அடிப்படை. ஏஜென்ட்கள் உண்மையான உலகில் எப்படி செயல்படுகின்றன என்பதைக் கண்காணிப்பதன் மூலம், குழுக்கள் மேம்படுத்தக்கூடிய பகுதிகளை கண்டறியலாம், மாதிரிகளை நுணுக்கப்படுத்துவதற்கான தரவை சேகரிக்கலாம், மற்றும் மாற்றங்களின் தாக்கத்தை சரிபார்க்கலாம். இது ஒரு கருத்துப்பிணையை உருவாக்கி, ஆன்லைன் மதிப்பீட்டிலிருந்து கிடைக்கும் உற்பத்தி洞IONS (insights) ஆஃப்லைன் பரிசோதனைகளையும் மேம்படுத்த உதவுகிறது, அதனால் ஏஜென்டின் செயல்திறன் மெல்ல மென்மையாக மேம்படும்.

கண்காணிக்க வேண்டிய முக்கியக் குறிப்புகள்

ஏஜென்டின் நடத்தை கண்காணிக்கவும் புரிந்துகொள்ளவும், பல்வேறு குறிகளும் சுடுகாடுகளும் கண்காணிக்கப்பட வேண்டும். குறிப்பிட்ட குறிகள் ஏஜென்ட் நோக்கத்தைப் பொறுத்து மாறலாம், ஆனால் சில பொதுவாக முக்கியமானவை.

கண்காணிப்பு கருவிகள் பொதுவாக கண்காணிக்கும் சில பொதுவான குறிகள் இங்கே:

நெரிசல்: ஏஜென்ட் எவ்வளவு விரைவாக பதில் அளிக்கிறது? நீண்ட காத்திருப்பு நேரங்கள் பயனர் அனுபவத்துக்கு எதிராகும். பணிகளுக்கும் தனி கட்டங்களுக்கும் நீங்கள் டிரேசிங் மூலம் நெரிசலை அளவிட வேண்டும். உதாரணமாக, ஒரு ஏஜென்ட் அனைத்து மாதிரி அழைப்புகளுக்கும் 20 வினாடிகள் எடுத்தால், அதனை வேகமான மாதிரியை பயன்படுத்துவதன் மூலம் அல்லது மாதிரி அழைப்புகளை პარலெல் இயக்குவதன் மூலம் வேகப்படுத்த முடியும்.

செலவுகள்: ஒரு ஏஜென்ட் ஓட்டத்தின் செலவு எவ்வளவு? AI ஏஜென்ட்கள் LLM அழைப்புகள் அல்லது வெளித் APIs இல் பொருத்தமாக கட்டணம் செலுத்தப்படுகிறன. கருவி பயன்பாடு அதிகமாகவோ அல்லது பல பிராம்ப்ட்கள் இருந்தாலோ செலவுகள் விரைவில் உயரும். உதாரணமாக, ஒரு ஏஜென்ட் சிறு தரமான மேம்பாட்டுக்காக LLM ஐ ஐந்து முறை அழைக்கினால், அந்தச் செலவின் நீதி உறுதிப்படுத்தப்படுகிறதா அல்லது அழைப்புகளின் எண்ணிக்கையை குறைக்கவோ மலிவு மாதிரியைப் பயன்படுத்தவோ செய்யலாமா என மதிப்பீடு செய்ய வேண்டும். நேரடி கண்காணிப்பு எதிர்பாராத உச்சங்களை (எ.கா., பிழைகள் காரணமாக அதிக API லூப்கள்) கண்டறிய உதவும்.

விண்ணப்பக் கோரிக்கை பிழைகள்: ஏஜென்ட் எத்தனை கோரிக்கைகளை தோற்கடித்தது? இதில் API பிழைகள் அல்லது கருவி அழைப்புகள் தோல்வியடைந்தவை அடக்கம். உற்பத்தியில் இந்தப் பிழைகளுக்கு எதிராக உங்கள் ஏஜென்ட்களை வலிமைமிக்கதாக செய்வதற்கு, நீங்கள்Fallbacks அல்லது மறுஆயத்தினை அமைக்கலாம். உதாரணமாக, LLM வழங்குநர் A கிடைக்காமல் இருந்தால், பின்விதியாக LLM வழங்குநர் B க்கு மாறுங்கள்.

பயனர் கருத்து: நேரடி பயனர் மதிப்பீடுகளை செயல்படுத்துவது பெறுமதியுள்ள洞IONS வழங்கும். இதில் வெளிப்படையான மதிப்புகள் (👍thumbs-up/👎down, ⭐1-5 நட்சத்திரங்கள்) அல்லது உரை கருத்துகள் அடக்கம். தொடர்ச்சியான எதிர்மறை பின்னூட்டம், ஏஜென்ட் எதிர்பார்ப்பின்படி செயல்படவில்லை என்பதை எச்சரிக்கை செய்யும்.

இறைமறை பயனர் கருத்து: பயனர் நடத்தை நேரடி மதிப்பீடுகள் இல்லாமல் கூட மறைமறையாக கருத்துக்களை வழங்கும். இதில் உடனடி கேள்வி மறுஅவர்த்தனை, மீண்டும் கேட்கும் கேள்விகள் அல்லது ரீடрай் பொத்தாணை கிளிக் செய்தல் அடக்கம். உதாரணமாக, பயர்கள் அவசியமாக ஒரே கேள்வியை மீண்டும் மீண்டும் கேட்கின்றனர் என்றால், இது ஏஜென்ட் எதிர்பாரிக்கப்பட்டபடி செயல்படவில்லை என்பதைக் குறிக்கிறது.

துல்லியம்: ஏஜென்ட் எத்தனைவசம் சரியான அல்லது விரும்பத்தக்க வெளியீடுகளை உருவாக்குகின்றது? துல்லியமான வரையறைகள் வேறுபடும் (எ.கா., சிக்கல் தீர்க்கும் சரித்திரம், தகவல் மீட்டெடுக்கும் துல்லியம், பயனர் திருப்தி). முதலில் உங்கள் ஏஜென்டுக்கு வெற்றி என்பது என்ன என்பது வரையறுக்கவும். துல்லியத்தை தானியங்கி சோதனைகள், மதிப்பீட்டு மதிப்பெண்கள் அல்லது பணிவிதை மூலமாகக் கண்காணிக்கலாம். உதாரணமாக, டிரேசுகளை "succeeded" அல்லது "failed" என அடையாளம் நிரப்புதல்.

தானியங்கி மதிப்பீட்டு குறிகள்: தானியங்கி மதிப்பீடுகளை நீங்கள் அமைக்கமுடியும். உதாரணமாக, உபயோகமுள்ளது, துல்லியமானது அல்லது இல்லை என்பதை மதிப்பீட்டுவதற்கு LLM ஐப் பயன்படுத்தலாம். ஏஜென்ட் வித்தியாசமான அம்சங்களை மதிப்பீடு செய்வதற்கு உதவும் பல open source நூலகங்களும் உள்ளன. உதாரணமாக RAG ஏஜென்ட்களுக்கு RAGAS அல்லது தீங்கு விளைவிக்கும் மொழியையும் prompt injection ஐ கண்டறியும் LLM Guard போன்றவை.

வ실புரிதி, இந்த குறிகளின் கலவையே ஒரு AI ஏஜென்டின் ஆரோக்கியத்திற்கான சிறந்த மூலக்கவசத்தை வழங்கும். இந்த அத்தியாயத்தின் உதாரண நோட்புக் ஆகியவற்றில் இந்தக் குறிகள் உண்மையான உதாரணங்களில் எப்படி தோன்றுகின்றன என்பதை நாம் காண்பிப்போம், ஆனால் முதலில் ஒரு சாதாரண மதிப்பீட்டு பணிநிரல் எப்படி இருக்கும் என்பதைப் பார்ப்போம்.

உங்கள் ஏஜென்டை இன்ச்ட்ருமென்ட் செய்யுங்கள்

டிரேசிங் தரவை சேகரிக்க, உங்கள் குறியீடுகளை இன்ச்ட்ருமென்ட் செய்ய வேண்டும். குறிக்கோள்: டிரேசுகள் மற்றும் தொடக்குறிகளை வெளியிடும் வகையில் ஏஜென்ட் குறியீடுகளை இன்ச்ட்ருமென்ட் செய்வது என்பதை observability தளம் பிடித்து, செயலாக்கி, காட்சி ஆகும் வகையில் செய்ய வேண்டும்.

OpenTelemetry (OTel): OpenTelemetry LLM கண்காணிப்பிற்கான ஒரு துறைத்தரநிலை ஆக வளர்ந்துள்ளது. இது டெலிமெட்ரி தரவை உருவாக்க, சேகரிக்க மற்றும் ஏற்றுமதி செய்ய APIs, SDKகள் மற்றும் கருவிகளின் தொகுப்பினை வழங்குகிறது.

பல இன்ச்ட்ருமென்டேஷன் நூலகங்கள் இருக்கும், அவை முந்தைய ஏஜென்ட் கட்டமைப்புகளை சுற்றி கொண்டுவந்து OpenTelemetry ஸ்பான்களை ஒரு கண்காணிப்பு கருவிக்கு எளிதாக ஏற்றுமதி செய்ய உதவுகின்றன. கீழே OpenLit instrumentation library பயன்படுத்தி AutoGen ஏஜெண்டை இன்ச்ட்ருமென்ட் செய்வதற்கான ஒரு உதாரணம் உள்ளது:

import openlit

openlit.init(tracer = langfuse._otel_tracer, disable_batch = True)

இந்த அத்தியாயத்தில் உள்ள உதாரண நோட்புக் உங்கள் AutoGen ஏஜென்டை எப்படி இன்ச்ட்ருமென்ட் செய்வதெனத்தை प्रद.present் என்பதை காண்பிக்கும்.

கையேட்டுப் பகுதி ஸ்பான் உருவாக்கம்: இன்ச்ட்ருமென்டேஷன் நூலகங்கள் ஒரு நல்ல அடிப்படையை வழங்கினாலும், அதிக விரிவான அல்லது மாறுபட்ட தகவல்கள் தேவைப்படுகிறது என்றால் பலபோல இடங்கள் இருக்கும். நீங்கள் கையேட்டாக ஸ்பான்களை உருவாக்கி சுயமொழி வணிக தர்க்கம் சேர்க்கலாம். மிக முக்கியமாக, அவை தானியங்கி அல்லது கையேட்டாக உருவாக்கப்பட்ட ஸ்பான்களை தனிப்பட்ட பண்புகள் (tags அல்லது metadata எனவும் அழைக்கப்படுவது) மூலம் சிறுசெய்தி செய்கின்றன. இவை user_id, session_id, அல்லது model_version போன்ற வணிக-சொந்த தரவுகளை, இடைநிலை கணக்கீடுகள் அல்லது புலனாய்வு அல்லது பகுப்பாய்வுக்கு உதவக்கூடிய எந்தவொரு வார்த்தையையையும் உள்ளடக்கியிருக்கலாம்.

Langfuse Python SDK ஐ கொண்டு டிரேசுகள் மற்றும் ஸ்பான்களை கையேட்டாக உருவாக்கும் உதாரணம்:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

ஏஜென்ட் மதிப்பீடு

கண்காணிப்பு நமக்கு குறிகளை வழங்குகிறது, ஆனால் மதிப்பீடு என்பது அந்த தரவுகளை (மற்றும் சோதனைகளைச் செய்க) பகுப்பாய்வு செய்து ஒரு AI ஏஜென்ட் எவ்வளவு நன்றாக செயல்படுகிறது மற்றும் அதை எப்படி மேம்படுத்தலாம் என்பதை தீர்மானிப்பதற்கான செயல்முறை. மற்ற சொற்களில், அந்த டிரேசுகளும் குறியீட்டும் இருந்தவுடன், நீங்கள் அவற்றைப் பயன்படுத்தி ஏஜென்டை எப்படி மதிப்பீடு செய்து முடிவெடுப்பீர்கள்?

வழக்கமாக, ஆய்விற்காக AI ஏஜென்ட்கள் இரு வகையான மதிப்பீடுகள் கடந்து செல்கின்றன: ஆன்லைன் மதிப்பீடு மற்றும் ஆஃப்லைன் மதிப்பீடு. இரண்டும் மதிப்புமிக்கவை மற்றும் ஒருவருக்கொருவர் துணையாய் செயல்படுகின்றன. சாதாரணமாக ஏஜென்டை வெளியிடுவதற்கு முன் குறைந்தபட்சமாக தேவையான படியாக நாம் முதலில் ஆஃப்லைன் மதிப்பீட்டை ஆரம்பிக்கிறோம்.

ஆஃப்லைன் மதிப்பீடு

லங்க்ஃப்யூஸில் தரவுத்தொகுப்பு உருப்படிகள்

இது கட்டுப்படுத்தப்பட்ட சூழல்களில் ஏஜென்டை மதிப்பீடு செய்வதைக் குறிக்கிறது, பொதுவாக சோதனை தரவுத்தொகுப்புகளைப் பயன்படுத்தி, நேரடி பயனர் கேள்விகளை அல்லாமல். நீங்கள் எதிர்பார்க்கப்படும் வெளியீடு அல்லது சரியான நடத்தை என்ன என்பதைக் காண்பிக்கும் முறையில் தொகுக்கப்பட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்தி உங்கள் ஏஜென்டை இயக்குவீர்கள்.

உதாரணமாக, நீங்கள் ஒரு கணித வார்த்தை பிரச்சனை ஏஜென்டை உருவாக்கியிருந்தால், நீங்கள் தெரிந்து கொள்ளப்பட்ட பதில்களுடன் 100 பிரச்சினைகளை கொண்ட ஒரு சோதனை தரவுத்தொகுப்பு இற்றைப்படையிருக்கலாம். ஆஃப்லைன் மதிப்பீடு பொதுவாக வளர்ச்சிக் காலத்தில் செய்யப்படுகிறது (மற்றும் CI/CD குழாய்களில் ஒரு பகுதியாக இருக்கலாம்) மேம்பாடுகளை சரிபார்க்க அல்லது மாறுபாடுகளை தடுப்பதற்கு. நன்மை என்னவென்றால் அது மீண்டும் இயங்கக்கூடியதாகும் மற்றும் உங்களுக்கு தரநியாக் நிஜத்திறன் (ground truth) இருப்பதால் தெளிவான துல்லியம் குறிகள் கிடைக்கும். நீங்கள் பயனர் கேள்விகளை உருவாக்கி ஏஜென்டின் பதில்களை ஐடியல் பதில்களோடு பொருத்தி அளவிடலாம் அல்லது மேலே விவரிக்கப்பட்ட தானியங்கி குறிகளைப் பயன்படுத்தலாம்.

ஆஃப்லைன் மதிப்பீட்டின் முக்கிய சவால் உங்கள் சோதனை தரவுத்தொகுப்பு விரிவாகவும் தொடர்புடையதாகவும் இருக்குமா என்பதை உறுதி செய்வதாகும் – ஏஜென்ட் நிரந்தர சோதனை தொகுப்பில் நன்றாக செயல்படலாம், ஆனால் உற்பத்தியில் மிகவும் வேறுபட்ட கேள்விகளை எதிர்கொள்ளலாம். எனவே, புதிய எல்லை வழக்குகள் மற்றும் உண்மையான உலகத்தின் எடுத்துக்காட்டுகளை பிரதிபலிக்கும் வகையில் சோதனை தொகுப்புகளை புதுப்பித்து வைத்திருப்பது அவசியம்​. சிறிய "திரும்பு சோதனை" வழக்குகள் மற்றும் பெரிய மதிப்பீட்டு தொகுப்புகளின் கலவையே பயனுள்ளதாக இருக்கும்: விரைவான சோதனைக்காக சிறிய தொகுப்புகள் மற்றும் பரந்த செயல்திறன் அளவீடുകൾக்காக பெரியவை.

ஆன்லைன் மதிப்பீடு

கண்காணிப்பு குறிகள் ஒவerview

இது ஏஜென்டை ஒருவழியாக, உண்மையான உலக சூழலில், அதாவது உற்பத்தியில் பயன்படுத்தும் போது மதிப்பீடு செய்வதைக் குறிக்கிறது. ஆன்லைன் மதிப்பீடு என்பது நேரடி பயனர் இடையூறுகளில் ஏஜென்டின் செயல்திறனை கண்காணித்து முடிவுகளை தொடர்ச்சியாக பகுப்பாய்வு செய்வதாகும்.

உதாரணமாக, நீங்கள் வெற்றியொப்பம் விகிதங்கள், பயனர் திருப்தி மதிப்பெண்கள் அல்லது நேரடி போக்கில் பிற குறிகளை கண்காணிக்கலாம். ஆன்லைன் மதிப்பீட்டின் நன்மை என்னவென்றால் அது லேபில் நீங்கள் எதிர்பார்க்கக் கூடாத விஷயங்களை கவர்ந்து கொள்ளும் – மாதிரியான செயல்திறன் காலத்தோடு மாறாமல் போகலாம் (எனில் உள்ளீட்டு மாதிரிகள் மாறினால்) மற்றும் உங்கள் சோதனை தரவுகளில் இல்லாத எதிர்பாராத கேள்விகள் அல்லது சூழ்நிலைகளை பிடிக்கலாம்​. இது ஏஜென்ட் இயற்கையில் எப்படி நடந்து கொண்டு இருக்கிறது என்ற உண்மையான படத்தை வழங்குகிறது.

ஆன்லைன் மதிப்பீடு பொதுவாக மறைமறை மற்றும் வெளிப்படை பயனர் கருத்துக்களைச் சேகரிப்பது மற்றும் தேவையெனில் ஷாடோ சோதனைகள் அல்லது A/B சோதனைகள் (புதிய பதிப்பு பழையதிற்கு ஒப்பிடுகையில் 병렬மாக இயங்குவது) ஓடி பார்க்கப்படலாம். சவாலை என்னவென்றால், நேரடி இடையூறுகளுக்கு நம்பகமான லேபிள்கள் அல்லது மதிப்பெண்களைப் பெறுவது கடினமாக இருக்கலாம் – நீங்கள் பயனர் கருத்து அல்லது பின்னடைவு குறிகள் (பயனர் முடிவு சொடுக்கினதா போன்ற) மீதான பொறுப்பு வைத்திருப்பீர்கள்.

இரண்டையும் இணைத்தல்

ஆன்லைன் மற்றும் ஆஃப்லைன் மதிப்பீடுகள் பரஸ்பரம் மாறுபட்டவை அல்ல; அவை மிகவும் இணக்கமானவை. ஆன்லைனில் கண்காணிப்பில் இருந்து பெறப்படும்洞IONS (உதாரணமாக, ஏஜென்ட் மோசமாக செயல்படும் புதிய வகை பயனர் கேள்விகள்) ஆஃப்லைன் சோதனை தரவுத்தொகுப்புகளை விரிவுபடுத்த மற்றும் மேம்படுத்த பயன்படுத்தப்படலாம். மாறாக, ஆஃப்லைனில் நன்றாக செயல்படும் ஏஜென்ட்களை நம்பிக்கையுடன் வெளியிடி ஆன்லைனில் கண்காணிக்கலாம்.

வাস্তவமாக பல குழுக்கள் ஒரு சுற்று பின்வரும் போல ஏற்றுக்கொள்கிறார்கள்:

ஆஃப்லைனில் மதிப்பீடு -> வெளியிடு -> ஆன்லைனில் கண்காணி -> புதிய தோல்வி வழக்குகளை சேகரி -> ஆஃப்லைன் தரவுத்தொகுப்பில் சேர்க்க -> ஏஜெண்டை மேம்படுத்து -> மீண்டும்.

பொதுவான சிக்கல்கள்

AI ஏஜென்ட்களை உற்பத்தியில் வெளியிடும்போது, பலவகையான சவால்களை சந்திக்கலாம். சில பொதுவான சிக்கல்களும் அவற்றுக்கான சாத்தியமான தீர்வுகளும் இங்கே:

சிக்கல் சாத்தியமான தீர்வு
AI ஏஜென்ட் பணிகளை நிலைத்தன்மையில்லாமல் செயல்படுத்துகிறது - ஏஜென்டுக்கு வழங்கப்படும் பிராம்ப்டை சீர்செய்து; குறிக்கோள்கள் தெளிவாக இருங்கள்.
- பணிகளை உபபணிகளாக பிரித்து பல ஏஜென்ட்களால் கையாளும்படி செய்யும் இடங்களை அடையாளம் காணுங்கள்.
AI ஏஜென்ட் தொடர்ச்சியான லூபுகளில் சிக்குகிறது - செயல்முறை நிறுத்த வேண்டிய தெளிவான முடிவு நிபந்தனைகள் இருக்குமா என்பதை உறுதி செய்யுங்கள், இதனால் ஏஜென்ட் செயல்முறையை 언제 நிறுத்த வேண்டும் என்பதை அறிந்துகொள்ளும்.
- காரணமறிய சிந்தனை மற்றும் திட்டமிடலுக்குத் தேவையான சிக்கலான பணிகளுக்கு உரிய, கட்டியமைக்கப்பட்ட பெரிய மாதிரியை பயன்படுத்தவும்.
AI ஏஜென்ட் கருவி அழைப்புகள் நல்ல செயல்திறன் இல்லை - கருவியின் வெளியீட்டை ஏஜென்ட் அமைப்புக்கான வெளியே சோதித்து செல்லுபடியாகும் என்பதை உறுதி செய்யுங்கள்.
- கருவிகளின் வரையறுக்கப்பட்ட அளவுருக்கள், பிராம்ப்ட்கள் மற்றும் பெயரீடுகளை சீர்செய்யுங்கள்.
பன்முக ஏஜென்ட் அமைப்பு நிலைதொடர்ச்சியாக செயல்படுவதில்லை - ஒவ்வொரு ஏஜென்டுக்கும் வழங்கப்படும் பிராம்ப்ட்களை குறிப்பாகவும் வேறுபட்டவையாகவும் சீர்செய்யுங்கள்.
- எந்த ஏஜென்ட் சரியானது என்று நிர்ணயிக்க “ரவுடிங்” அல்லது கட்டுப்படுத்தும் ஏஜென்டைப் பயன்படுத்தி ஒரு வழிமுறை அமைக்குங்கள்.

இந்தப் பல சிக்கல்களையும் கண்காணிப்பு நுட்பத்துடன் இருக்கும்போது மேலும் திறம்பட அடையாளம் காண முடியும். முன்னதாகக் குறிப்பிடப்பட்ட டிரேசுகள் மற்றும் குறிகள் ஏஜென்ட் பணிமுறையில் எந்த இடத்தில் சிக்கல்கள் நிகழ்கின்றன என்பதை துல்லியமாக குறிப்பிட உதவுகின்றன, இதனால் பிழைதிருத்தமும் மேம்பாடும் மிகவும் திறமையாக நடைபெறுகின்றன.

செலவுகள் மேலாண்மை

இங்கே AI ஏஜெண்டுகளை தயாரிப்பு நிலைக்கு (production) வெளியிடும்போது செலவுகளை நிர்வகிப்பதற்கான சில நெறிமுறைகள் உள்ளன:

சிறிய மாடல்களைப் பயன்படுத்துதல்: Small Language Models (SLMs) சில ஏஜென்டு பயன்படுத்தல் வழக்குகளில் நல்ல செயல்திறன் கொண்டிருக்க முடியும் மற்றும் செலவுகளை மிக முக்கியமாக குறைக்கும். முன்பு குறிப்பிடத்தக்கது போல, செயல்திறனை பெரிய மாடல்களுடன் ஒப்பிடுவதற்கும் மதிப்பீடு செய்யவும் ஒரு மதிப்பீட்டு அமைப்பை உருவாக்குவது உங்கள் பயன்பாட்டிற்கு SLM எவ்வாறு செயல்படுமென்பதை புரிந்து கொள்ள சிறந்த வழி ஆகும். நோக்கங் வகைப்பாடு (intent classification) அல்லது பரிமாணம் எடுத்தெடுக்கும் (parameter extraction) போன்ற எளிய பணிகளுக்கு SLM-களை பயன்படுத்த பரிந்துரை செய்யுங்கள், ஆனால் சிக்கலான தார்க்கரீதியான பணிகளுக்கு பெரிய மாடல்களை காத்திருங்கள்.

ரூட்டர் மாடலை பயன்படுத்துதல்: ஒரு தொடர்புடைய நெறிமுறையாக பல்வேறு மாடல்களும் அளவுகளும் சேர்க்கப்பட்ட வகையை பயன்படுத்தலாம். நீங்கள் ஒரு LLM/SLM அல்லது serverless function ஐப் பயன்படுத்தி கோரிக்கைகளின் சிக்கல்பாடின் அடிப்படையில் சிறந்த பொருத்தமான மாடல்களுக்கு வழிநடத்த முடியும். இது செலவுகளை குறைப்பதோடு பல பணிகளில் சரியான செயல்திறனை உறுதிசெய்ய உதவும். உதாரணமாக, எளிய கேள்விகளை சிறிய, வேகமான மாடல்களுக்கு வழிநடத்துங்கள், மற்றும் கடினமான தார்க்கரீதியான பணிகளுக்கு மட்டுமே விலை உயர்ந்த பெரிய மாடல்களை பயன்படுத்துங்கள்.

பதில்களை கெஷ் செய்வது: பொதுவாக வரும் கோரிக்கைகள் மற்றும் பணிகளை அடையாளம் காண்பதையும், அவை உங்கள் ஏஜென்டு அமைப்பில் செல்லுமுன் பதில்களை வழங்குவதும் ஒத்த கோரிக்கைகளின் அளவை குறைக்க ஒரு நல்ல வழியாகும். ஒரு கோரிக்கை உங்கள் கெஷ் செய்யப்பட்ட கோரிக்கைகளுடன் 얼마나 ஒத்ததாக உள்ளது என்பதை அடையாளம் காண ஒரு அடிப்படை AI மாடல்களைப் பயன்படுத்தும் ஒரு தளவமைப்பையும் நீங்கள் செயல்படுத்தலாம். அடிக்கடி கேட்கப்படும் கேள்விகள் அல்லது பொதுவான வேலைவழக்கங்களுக்கு இந்த நடைமுறை முக்கியமாக செலவுகளை குறைக்கும்.

செயல்பாட்டில் இது எப்படி வேலை செய்கிறது என்பதைப் பார்க்கலாம்

இந்த பகுதிக்கு சொந்தமான example notebook of this section இல், நாங்கள் observability கருவிகளை எவ்வாறு பயன்படுத்தி நமது ஏஜெண்டைப் பரிசோதித்து மதிப்பீடு செய்யலாம் என்பதற்கான உதாரணங்களை காண்போம்.

தயாரிப்பில் AI ஏஜெண்டுகள் பற்றி மேலும் கேள்விகள் உள்ளதா?

இன்னும் கற்றாளர்களை சந்திக்க, office hours-ல் கலந்து கொள்ள மற்றும் உங்கள் AI ஏஜெண்டுகள் தொடர்பான கேள்விகளுக்கு பதில்கள் பெற Microsoft Foundry Discord-இல் இணையுங்கள்.

முந்தைய பாடம்

Metacognition Design Pattern

அடுத்த பாடம்

Agentic Protocols


மறுப்பு அறிவிப்பு: இந்த ஆவணம் AI மொழிபெயர்ப்பு சேவையான Co-op Translator மூலம் மொழிபெயர்க்கப்பட்டது. நாங்கள் துல்லியத்துக்காக முயற்சித்தாலும், தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறான தகவல்கள் இருக்கலாம் என்பதை தயவுசெய்து நினையுங்கள். மூல ஆவணம் அதன் தாய்மொழியில் உள்ள பதிப்பு அதிகாரபூர்வ ஆதாரமாகக் கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பை பரிந்துரைக்கிறோம். இந்த மொழிபெயர்ப்பை பயன்படுத்துவதால் ஏற்படக்கூடிய எந்த தவறான புரிதல்களுக்கும் அல்லது தவறான விலக்குகளுக்கும் நாங்கள் பொறுப்பேற்கமாட்டோம்.