Skip to content

Latest commit

 

History

History
171 lines (97 loc) · 27.3 KB

File metadata and controls

171 lines (97 loc) · 27.3 KB

AI ایجنٹس پروڈکشن میں: مشاہدہ اور جائزہ

AI ایجنٹس پروڈکشن میں

جب AI ایجنٹس تجرباتی نمونوں سے حقیقی دنیا کی ایپلیکیشنز کی طرف بڑھتے ہیں، تو ان کے رویے کو سمجھنے، ان کی کارکردگی کی نگرانی کرنے، اور ان کے آؤٹ پٹ کو منظم طریقے سے جانچنے کی صلاحیت اہم ہو جاتی ہے۔

سیکھنے کے مقاصد

اس سبق کو مکمل کرنے کے بعد، آپ جانیں گے/سمجھیں گے کہ:

  • ایجنٹ مشاہدہ اور جائزے کے بنیادی تصورات
  • ایجنٹس کی کارکردگی، لاگت، اور مؤثریت بہتر بنانے کی تکنیکیں
  • آپ کے AI ایجنٹس کا منظم طریقے سے کیا اور کیسے جائزہ لیا جائے
  • AI ایجنٹس کو پروڈکشن میں تعینات کرتے وقت لاگت کو کیسے کنٹرول کیا جائے
  • AutoGen کے ساتھ بنائے گئے ایجنٹس کو کیسے انسٹرومنٹ کیا جائے

ہدف یہ ہے کہ آپ کو اتنا علم فراہم کیا جائے کہ آپ اپنے "بلیک باکس" ایجنٹس کو شفاف، قابلِ انتظام، اور قابلِ اعتماد نظام میں تبدیل کر سکیں۔

نوٹ: یہ ضروری ہے کہ AI ایجنٹس محفوظ اور قابلِ اعتماد ہوں۔ Building Trustworthy AI Agents سبق بھی دیکھیں۔

ٹریسز اور اسپانس

مشاہدہ کرنے کے ٹولز جیسے کہ Langfuse یا Microsoft Foundry عام طور پر ایجنٹ رنز کو ٹریسز اور اسپانس کی صورت میں ظاہر کرتے ہیں۔

  • ٹریس ایک مکمل ایجنٹ ٹاسک کی نمائندگی کرتا ہے آغاز سے اختتام تک (مثلاً صارف کی سوال کو ہینڈل کرنا)۔
  • اسپانس ٹریس کے اندر انفرادی مراحل ہوتے ہیں (مثلاً زبان کے ماڈل کو کال کرنا یا ڈیٹا حاصل کرنا)۔

Langfuse میں ٹریس ٹری

اگر مشاہدہ نہ کیا جائے تو AI ایجنٹ کو "بلیک باکس" محسوس کیا جا سکتا ہے — اس کی داخلی حالت اور منطق غیر شفاف ہوتی ہے، جس سے مسائل کی تشخیص یا کارکردگی میں بہتری کرنا مشکل ہو جاتا ہے۔ مشاہدہ کے ساتھ، ایجنٹس "گلاس باکس" بن جاتے ہیں، جو شفافیت فراہم کرتے ہیں جو اعتماد کے قیام اور چاہے گئے طریقے سے کام کرنے کی ضمانت کے لئے ضروری ہے۔

پروڈکشن ماحول میں مشاہدہ کیوں اہم ہے

AI ایجنٹس کو پروڈکشن ماحول میں منتقل کرنے سے نئے چیلنجز اور تقاضے سامنے آتے ہیں۔ مشاہدہ اب "اچھائی کی چیز" نہیں بلکہ ایک ناگزیر صلاحیت ہے:

  • ڈی بگنگ اور روٹ-کاز تجزیہ: جب ایجنٹ ناکام ہو جاتا ہے یا غیر متوقع آؤٹ پٹ دیتا ہے، تو مشاہدہ کے ٹولز ایسے ٹریسز فراہم کرتے ہیں جو غلطی کے ماخذ کی نشاندہی کرتے ہیں۔ یہ خاص طور پر پیچیدہ ایجنٹس میں اہم ہے جن میں متعدد LLM کالز، ٹول انٹریکشنز، یا شرطی منطق شامل ہو سکتی ہے۔
  • لیٹینسی اور لاگت کا انتظام: AI ایجنٹس اکثر ایسے LLMs اور دیگر خارجی APIs پر منحصر ہوتے ہیں جو ٹوکن یا کال کی بنیاد پر بل کرتے ہیں۔ مشاہدہ ان کالز کا درست تعاقب ممکن بناتا ہے، تاکہ سست یا مہنگی آپریشنز کی نشاندہی ہو سکے۔ اس سے ٹیمیں پرامپٹس کو بہتر بنانے، زیادہ مؤثر ماڈلز کا انتخاب کرنے، یا ورک فلو کو دوبارہ ڈیزائن کرنے کے قابل ہوتی ہیں تاکہ آپریشنل لاگت کو کنٹرول کیا جا سکے اور صارف کا تجربہ بہتر بنایا جا سکے۔
  • اعتماد، سلامتی اور تعمیل: بہت سی ایپلیکیشنز میں یہ ضروری ہے کہ ایجنٹس محفوظ اور اخلاقی انداز میں کام کریں۔ مشاہدہ ایک آڈٹ ٹریل مہیا کرتا ہے جو ایجنٹ کے اقدامات اور فیصلوں کا ریکارڈ رکھتا ہے۔ اسے جیسے پرامپٹ انجیکشن، نقصان دہ مواد کی تخلیق، یا ذاتی شناخت کی معلومات (PII) کے غلط انتظام کا پتہ لگانے اور روک تھام کے لئے استعمال کیا جا سکتا ہے۔ مثلاً، آپ ٹریسز کا جائزہ لے سکتے ہیں کہ یہ سمجھنے کے لئے کہ ایجنٹ نے مخصوص جواب کیوں دیا یا مخصوص ٹول کیوں استعمال کیا۔
  • مسلسل بہتری کے لوپس: مشاہدہ کا ڈیٹا ایک تدریجی ترقیاتی عمل کی بنیاد ہے۔ حقیقی دنیا میں ایجنٹس کی کارکردگی کی نگرانی کے ذریعے، ٹیمیں بہتری کے علاقے شناخت کر سکتی ہیں، ماڈلز کو بہتر بنانے کے لئے ڈیٹا جمع کر سکتی ہیں، اور تبدیلیوں کے اثرات کی توثیق کر سکتی ہیں۔ یہ ایک فیڈ بیک لوپ تخلیق کرتا ہے جہاں آن لائن جائزے سے حاصل شدہ بصیرت آف لائن تجربات اور اصلاح کی رہنمائی کرتی ہے، جس سے ایجنٹ کی کارکردگی بتدریج بہتر ہوتی ہے۔

ٹریک کرنے کے لیے اہم میٹرکس

ایجنٹ کے رویے کی جانچ اور سمجھنے کے لیے مختلف میٹرکس اور سگنلز کو ٹریک کرنا چاہیے۔ مخصوص میٹرکس ایجنٹ کے مقصد کے لحاظ سے مختلف ہو سکتے ہیں، لیکن کچھ یونیورسل طور پر اہم ہیں۔

یہاں کچھ عام میٹرکس ہیں جو مشاہدہ کے ٹولز مانیٹر کرتے ہیں:

لیٹینسی: ایجنٹ کتنی تیزی سے جواب دیتا ہے؟ طویل انتظار صارف کے تجربے کو نقصان پہنچاتے ہیں۔ آپ کو ٹاسکس اور انفرادی مراحل کے لئے لیٹینسی ماپنی چاہیے، یہ ٹریسنگ کے ذریعے ممکن ہے۔ مثلاً، اگر ایک ایجنٹ تمام ماڈل کالز کے لئے ۲۰ سیکنڈ لیتا ہے، تو اسے تیز ماڈل استعمال کر کے یا ماڈل کالز کو متوازی چلانے سے تیز کیا جا سکتا ہے۔

لاگت: فی ایجنٹ رن پر خرچ کیا ہوتا ہے؟ AI ایجنٹس LLM کالز اور خارجی APIs پر انحصار کرتے ہیں جن کی قیمت فی ٹوکن یا کال کے حساب سے ہوتی ہے۔ بار بار ٹول کا استعمال یا متعدد پرامپٹس لاگت کو تیزی سے بڑھا سکتے ہیں۔ مثال کے طور پر، اگر ایک ایجنٹ پانچ بار LLM کال کرتا ہے معمولی معیار کی بہتری کے لئے، تو آپ کو اندازہ لگانا چاہیے کہ کیا لاگت جائز ہے یا آپ کالز کی تعداد کم کرکے یا سستا ماڈل استعمال کرکے لاگت کم کر سکتے ہیں۔ ریئل ٹائم مانیٹرنگ غیر متوقع اضافہ (مثلاً بگز سے زائد API لوپس) کی شناخت میں مدد دیتی ہے۔

درخواست کی غلطیاں: ایجنٹ نے کتنی درخواستیں ناکام کیں؟ اس میں API کی غلطیاں یا ناکام ٹول کالز شامل ہو سکتی ہیں۔ پروڈکشن میں اپنے ایجنٹ کو زیادہ مضبوط بنانے کے لئے آپ فالبیکس یا دوبارہ کوشش کے میکانزم لگا سکتے ہیں۔ مثلاً اگر LLM مہیا کنندہ A نیچے ہے، تو LLM مہیا کنندہ B کو بیک اپ کے طور پر استعمال کریں۔

صارف کی رائے: براہ راست صارف کی تشخیص نفیس بصیرت فراہم کرتی ہے۔ اس میں واضح درجہ بندی (👍پسند/👎ناپسند، ⭐1-5 ستارے) یا تحریری تبصرے شامل ہو سکتے ہیں۔ مستقل منفی رائے آپ کو خبردار کرے گی کیونکہ یہ اشارہ ہے کہ ایجنٹ متوقع طریقے سے کام نہیں کر رہا۔

غیر واضح صارف کی رائے: صارف کے رویے بلاواسطہ رائے فراہم کرتے ہیں، چاہے واضح درجہ بندی موجود نہ ہو۔ اس میں فوری سوال کی دوبارہ وضاحت، بار بار سوالات، یا ری ٹرائی بٹن پر کلک کرنا شامل ہو سکتا ہے۔ مثلاً اگر آپ دیکھیں کہ صارفین بار بار ایک ہی سوال پوچھتے ہیں تو یہ اشارہ ہے کہ ایجنٹ متوقع طریقے سے کام نہیں کر رہا۔

درستگی: ایجنٹ کتنی بار درست یا مطلوبہ آؤٹ پٹ پیدا کرتا ہے؟ درستگی کی تعریف مختلف ہو سکتی ہے (مثلاً مسئلہ حل کرنے کی درستگی، معلومات کی بازیافت کی درستگی، صارف کی تسکین)۔ پہلا قدم یہ ہے کہ آپ اپنے ایجنٹ کے لئے کامیابی کی تعریف واضح کریں۔ آپ درستگی کو خودکار چیکس، جائزہ اسکورز، یا ٹاسک کی تکمیل کے لیبلز کے ذریعے ٹریک کر سکتے ہیں۔ مثلاً، ٹریسز کو "کامیاب" یا "ناکام" کے طور پر نشان زد کرنا۔

خودکار جائزہ میٹرکس: آپ خودکار جائزے بھی ترتیب دے سکتے ہیں۔ مثال کے طور پر، آپ ایک LLM استعمال کر کے ایجنٹ کے آؤٹ پٹ کو اسکور کر سکتے ہیں مثلاً یہ کتنا مددگار، درست، یا نہیں ہے۔ کئی اوپن سورس لائبریریاں بھی ہیں جو ایجنٹ کے مختلف پہلوؤں کو اسکور کرنے میں مدد دیتی ہیں۔ مثلاً RAGAS RAG ایجنٹس کے لیے یا LLM Guard نقصان دہ زبان یا پرامپٹ انجیکشن کا پتہ لگانے کے لیے۔

عملی طور پر، ان میٹرکس کے امتزاج سے AI ایجنٹ کی صحت کا بہترین احاطہ ہوتا ہے۔ اس باب کے مثالی نوٹ بک میں، ہم آپ کو دکھائیں گے کہ یہ میٹرکس حقیقی مثالوں میں کیسے دکھائی دیتی ہیں، لیکن پہلے ہم سیکھیں گے کہ ایک عام جائزے کا ورک فلو کیسا ہوتا ہے۔

اپنے ایجنٹ کو انسٹرومنٹ کریں

ٹریسنگ ڈیٹا جمع کرنے کے لیے، آپ کو اپنے کوڈ کو انسٹرومنٹ کرنا ہوگا۔ مقصد یہ ہے کہ ایجنٹ کوڈ کو اس طرح انسٹرومنٹ کیا جائے کہ وہ ٹریسز اور میٹرکس پیدا کرے جو مشاہدہ کرنے کے پلیٹ فارم کے ذریعے پکڑے، پروسیس، اور ویژوئلائز کیے جا سکیں۔

OpenTelemetry (OTel): OpenTelemetry LLM مشاہدے کے لیے ایک صنعتی معیار کے طور پر ابھر کر سامنے آیا ہے۔ یہ APIs، SDKs، اور ٹولز کا ایک مجموعہ فراہم کرتا ہے جو ٹیلی میٹری ڈیٹا بنانے، جمع کرنے، اور برآمد کرنے کے لیے ہوتا ہے۔

کئی انسٹرومنٹیشن لائبریریاں موجود ہیں جو موجودہ ایجنٹ فریم ورکس کو لپیٹ کر OpenTelemetry اسپانس کو آسانی سے مشاہدہ کے ٹول پر برآمد کرنے دیتی ہیں۔ نیچے AutoGen ایجنٹ کو OpenLit انسٹرومنٹیشن لائبریری کے ساتھ انسٹرومنٹ کرنے کی ایک مثال ہے:

import openlit

openlit.init(tracer = langfuse._otel_tracer, disable_batch = True)

اس باب میں مثالی نوٹ بک آپ کو دکھائے گا کہ اپنے AutoGen ایجنٹ کو کیسے انسٹرومنٹ کرنا ہے۔

دستی اسپان تخلیق: اگرچہ انسٹرومنٹیشن لائبریریاں ایک اچھا بنیادی معیار فراہم کرتی ہیں، اکثر ایسے مواقع ہوتے ہیں جہاں مزید تفصیلی یا حسب ضرورت معلومات کی ضرورت ہوتی ہے۔ آپ دستی طور پر اسپانس بنا سکتے ہیں تاکہ کسٹم ایپلیکیشن لاجک شامل کی جا سکے۔ مزید اہم بات یہ ہے کہ وہ خودکار یا دستی تخلیق کردہ اسپانس کو حسب ضرورت Attributes (جنہیں tags یا metadata بھی کہتے ہیں) کے ساتھ مالا مال کر سکتے ہیں۔ یہ Attributes مخصوص کاروباری ڈیٹا، درمیانی حساب کتاب، یا کوئی بھی سیاق و سباق شامل کر سکتے ہیں جو ڈی بگنگ یا تجزیہ کے لیے مفید ہو سکتے ہیں، مثلاً user_id، session_id، یا model_version۔

Langfuse Python SDK کے ساتھ ٹریسز اور اسپانس کو دستی طور پر بنانے کی مثال:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

ایجنٹ جائزہ

مشاہدہ ہمیں میٹرکس دیتا ہے، لیکن جائزہ اس ڈیٹا کا تجزیہ (اور ٹیسٹ کرنا) ہے تاکہ یہ معلوم کیا جا سکے کہ AI ایجنٹ کی کارکردگی کیسی ہے اور اسے کیسے بہتر بنایا جا سکتا ہے۔ دوسرے الفاظ میں، جب آپ کے پاس یہ ٹریسز اور میٹرکس ہوں، تو آپ انہیں ایجنٹ کی جانچ کے لیے اور فیصلے کرنے کے لیے کیسے استعمال کرتے ہیں؟

باقاعدہ جائزہ ضروری ہے کیونکہ AI ایجنٹس اکثر غیر متعین (non-deterministic) ہوتے ہیں اور وقت کے ساتھ بدل سکتے ہیں (اپ ڈیٹس یا ماڈل رویے کی ڈرفٹ کے ذریعے) – بغیر جائزے کے، آپ کو معلوم نہیں ہو گا کہ آپ کا "سمارٹ ایجنٹ" واقعی اپنا کام اچھے طریقے سے کر رہا ہے یا نہیں۔

AI ایجنٹس کے جائزے کی دو اقسام ہیں: آن لائن جائزہ اور آف لائن جائزہ۔ دونوں قیمتی ہیں اور ایک دوسرے کی تکمیل کرتے ہیں۔ عام طور پر ہم آف لائن جائزے سے شروع کرتے ہیں، کیونکہ یہ تعیناتی سے پہلے کم از کم ضروری مرحلہ ہے۔

آف لائن جائزہ

Langfuse میں ڈیٹاسیٹ آئٹمز

اس میں ایجنٹ کا ایک کنٹرول شدہ ماحول میں جائزہ لینا شامل ہے، عام طور پر ٹیسٹ ڈیٹاسیٹس کے ساتھ، نہ کہ لائیو صارف کے سوالات کے ساتھ۔ آپ منتخب شدہ ڈیٹاسیٹس استعمال کرتے ہیں جہاں آپ کو معلوم ہوتا ہے کہ متوقع آؤٹ پٹ یا درست رویہ کیا ہے، اور پھر آپ اپنے ایجنٹ کو ان پر چلائیں گے۔

مثال کے طور پر، اگر آپ نے ریاضی کے لفظی مسائل کے ایجنٹ کو بنایا ہے، تو آپ کے پاس ٹیسٹ ڈیٹاسیٹ ہو سکتا ہے جس میں 100 مسائل اور ان کے صحیح جواب موجود ہوں۔ آف لائن جائزہ اکثر ترقی کے دوران کیا جاتا ہے (اور CI/CD پائپ لائنز کا حصہ ہو سکتا ہے) تاکہ بہتری کی جانچ یا ریگریشن سے بچاؤ کیا جا سکے۔ فائدہ یہ ہے کہ یہ دوہرانے والا ہوتا ہے اور آپ کو واضح درستگی میٹرکس ملتے ہیں کیونکہ آپ کے پاس زمینِ حقائق (ground truth) موجود ہے۔ آپ ممکنہ صارف کے سوالات کی مشابہت کر کے ایجنٹ کے جوابات کو مثالی جواب سے ماپ سکتے ہیں یا خودکار میٹرکس استعمال کر سکتے ہیں جیسا کہ اوپر بیان کیا گیا۔

آف لائن جائزے کا بڑا چیلنج یہ ہے کہ آپ کا ٹیسٹ ڈیٹاسیٹ جامع ہونا چاہیے اور متعلقہ رہنا چاہیے — ایجنٹ ایک مقررہ ٹیسٹ سیٹ پر اچھا کام کر سکتا ہے لیکن پروڈکشن میں بالکل مختلف سوالات کا سامنا کر سکتا ہے۔ لہٰذا، آپ کو ٹیسٹ سیٹس کو نئے ایج کیسز اور حقیقی دنیا کی مثالوں کے ساتھ اپ ڈیٹ رکھنا چاہیے۔ "سموک ٹیسٹ" (چھوٹے مجموعے) اور بڑے جائزے کے سیٹوں کا امتزاج مفید ہے: جلدی چیکس کے لیے چھوٹے سیٹس اور وسیع کارکردگی میٹرکس کے لیے بڑے۔

آن لائن جائزہ

مشاہدہ میٹرکس کا جائزہ

اس کا مطلب ہے کہ ایجنٹ کا جائزہ حقیقی وقت، حقیقی دنیا کے ماحول میں، یعنی پروڈکشن کے دوران لیا جائے۔ آن لائن جائزے میں حقیقی صارف کے تعاملات میں ایجنٹ کی کارکردگی کی نگرانی اور نتائج کا تسلسل سے تجزیہ شامل ہے۔

مثلاً، آپ کامیابی کی شرح، صارف کی تسکین اسکورز، یا دیگر میٹرکس کو لائیو ٹریفک پر مانیٹر کر سکتے ہیں۔ آن لائن جائزے کا فائدہ یہ ہے کہ یہ وہ چیزیں پکڑتا ہے جو آپ لیب سیٹنگ میں توقع نہیں کر سکتے — آپ وقت کے ساتھ ماڈل کی تبدیلی (موڈل ڈرفٹ) کو دیکھ سکتے ہیں (اگر ایجنٹ کی مؤثریت ان پٹ پیٹرنز کی تبدیلی کی وجہ سے کم ہو جاتی ہے) اور غیر متوقع سوالات یا حالات پکڑ سکتے ہیں جو آپ کے ٹیسٹ ڈیٹا میں نہیں تھے۔ یہ دکھاتا ہے کہ ایجنٹ جنگل میں کیسے رویہ کرتا ہے۔

آن لائن جائزے میں غیر واضح اور واضح صارفین کی رائے جمع کرنا شامل ہو سکتا ہے، جیسا کہ پہلے بیان کیا گیا، اور ممکنہ طور پر شیڈو ٹیسٹ یا A/B ٹیسٹ چلانا (جہاں ایجنٹ کا نیا ورژن پرانے کے مقابلے میں متوازی چلتا ہے)۔ چیلنج یہ ہوتا ہے کہ لائیو تعاملات کے لیے معتبر لیبل یا اسکورز حاصل کرنا مشکل ہو سکتا ہے — آپ صارف کی رائے یا نیچے کے میٹرکس پر انحصار کر سکتے ہیں (جیسے صارف نے نتیجہ پر کلک کیا یا نہیں)۔

دونوں کو یکجا کرنا

آن لائن اور آف لائن جائزے ایک دوسرے کے متضاد نہیں بلکہ انتہائی تکمیلی ہیں۔ آن لائن مانیٹرنگ سے حاصل بصیرت (مثلاً صارف کے نئے قسم کے سوالات جہاں ایجنٹ خراب کام کر رہا ہے) کو آف لائن ٹیسٹ ڈیٹاسیٹ کو بہتر بنانے کے لیے استعمال کیا جا سکتا ہے۔ اس کے برعکس، وہ ایجنٹس جو آف لائن ٹیسٹس میں اچھے کام کرتے ہیں، انہیں زیادہ اعتماد کے ساتھ آن لائن تعینات اور مانیٹر کیا جا سکتا ہے۔

کئی ٹیمیں حقیقت میں اس عمل کو لوپ کی صورت میں اپنا لیتی ہیں:

آف لائن جائزہ لیں -> تعینات کریں -> آن لائن مانیٹر کریں -> نئ ناکام کیسز جمع کریں -> آف لائن ڈیٹاسیٹ میں شامل کریں -> ایجنٹ بہتر کریں -> دہرائیں۔

عام مسائل

جب آپ AI ایجنٹس کو پروڈکشن میں تعینات کرتے ہیں، تو آپ کو مختلف چیلنجز کا سامنا ہو سکتا ہے۔ یہاں چند عام مسائل اور ان کے ممکنہ حل پیش کیے گئے ہیں:

مسئلہ ممکنہ حل
AI ایجنٹ تسلسل کے ساتھ ٹاسکس انجام نہیں دے رہا - AI ایجنٹ کو دیے گئے پرامپٹ کو بہتر کریں؛ مقاصد واضح کریں۔
- یہ معلوم کریں کہ ٹاسکس کو ذیلی ٹاسکس میں تقسیم کر کے مختلف ایجنٹس کے ذریعے ہینڈل کرنا فائدہ مند ہو سکتا ہے۔
AI ایجنٹ مسلسل لوپس میں پھنس رہا ہے - واضح اختتامی شرائط یقینی بنائیں تاکہ ایجنٹ جان سکے کہ عمل کب ختم کرنا ہے۔
- پیچیدہ ٹاسکس کے لیے جو سوچ بچار اور منصوبہ بندی طلب کرتے ہیں، ایسے بڑے ماڈل استعمال کریں جو ان ٹاسکس کے لیے مخصوص ہوں۔
AI ایجنٹ کے ٹول کالز ٹھیک سے کام نہیں کر رہے - ایجنٹ سسٹم کے باہر ٹول کے آؤٹ پٹ کی جانچ اور تصدیق کریں۔
- ٹولز کے متعین کردہ پیرامیٹرز، پرامپٹس، اور ناموں کو بہتر کریں۔
ملٹی ایجنٹ سسٹم تسلسل کے ساتھ کارکردگی نہیں دے رہا - ہر ایجنٹ کو دیے گئے پرامپٹس کو خاص اور ایک دوسرے سے مختلف بنائیں۔
- "روٹنگ" یا کنٹرولر ایجنٹ کے ذریعے ایک درجہ بندی نظام بنائیں جو صحیح ایجنٹ کا انتخاب کرے۔

ان میں سے بہت سے مسائل کو مشاہدہ کی جگہ پر زیادہ مؤثر طریقے سے شناخت کیا جا سکتا ہے۔ ٹریسز اور میٹرکس جو ہم نے پہلے بیان کیے تھے، بالکل بتاتے ہیں کہ ایجنٹ کے ورکفلو میں مسئلہ کہاں ہوتا ہے، جس سے ڈی بگنگ اور بہتر سازی آسان ہو جاتی ہے۔

لاگت کا انتظام

یہاں کچھ حکمت عملیاں دی گئی ہیں تاکہ AI ایجنٹس کو پروڈکشن میں تعینات کرنے کی لاگت کو منظم کیا جا سکے:

چھوٹے ماڈلز کا استعمال: چھوٹے لینگویج ماڈلز (SLMs) بعض ایجنٹک استعمال کی صورتوں میں اچھا مظاہرہ کر سکتے ہیں اور لاگت کو نمایاں طور پر کم کریں گے۔ جیسا کہ پہلے ذکر کیا گیا، ایک ایسے اندازہ کاری نظام کی تشکیل جو کارکردگی کا موازنہ بڑے ماڈلز سے کرے، یہ سمجھنے کا بہترین طریقہ ہے کہ آپ کے استعمال کے معاملے پر ایک SLM کی کارکردگی کیسی ہوگی۔ سادہ کاموں جیسے ارادے کی درجہ بندی یا پیرا میٹر نکالنے کے لیے SLMs کے استعمال پر غور کریں، جبکہ پیچیدہ استدلال کے لیے بڑے ماڈلز مخصوص رکھیں۔

روٹر ماڈل کا استعمال: ایک مشابہ حکمت عملی یہ ہے کہ مختلف ماڈلز اور سائز کا استعمال کیا جائے۔ آپ LLM/SLM یا سرورلیس فنکشن استعمال کر سکتے ہیں تاکہ پیچیدگی کی بنیاد پر درخواستوں کو بہترین ماڈلز تک پہنچایا جا سکے۔ اس سے لاگت میں کمی آئے گی اور ساتھ ہی صحیح کاموں پر کارکردگی کو یقینی بنایا جائے گا۔ مثال کے طور پر، سادہ سوالات کو چھوٹے اور تیز ماڈلز کو بھیجیں، اور صرف پیچیدہ استدلالی کاموں کے لیے مہنگے بڑے ماڈلز استعمال کریں۔

جوابات کیش کرنا: عام درخواستوں اور کاموں کی شناخت کرنا اور ان کے جوابات کو آپ کے ایجنٹک نظام سے گزرنے سے پہلے فراہم کرنا، مشابہ درخواستوں کی تعداد کو کم کرنے کا ایک اچھا طریقہ ہے۔ آپ ایک ایسا فلو بھی نافذ کر سکتے ہیں جو بنیادی AI ماڈلز کا استعمال کرتے ہوئے معلوم کرے کہ کوئی درخواست آپ کے کیشد ریquests کے کتنا مشابہ ہے۔ یہ حکمت عملی اکثر پوچھے جانے والے سوالات یا عام ورک فلو کے لیے لاگت کو نمایاں طور پر کم کر سکتی ہے۔

آئیے دیکھتے ہیں کہ یہ عملی طور پر کیسے کام کرتا ہے

اس سیکشن کی مثال نوٹ بک میں، ہم دیکھیں گے کہ ہم اپنے ایجنٹ کی نگرانی اور جائزہ لینے کے لیے کس طرح اوبزرویبیلیٹی ٹولز استعمال کر سکتے ہیں۔

پروڈکشن میں AI ایجنٹس کے بارے میں مزید سوالات ہیں؟

Microsoft Foundry Discord میں شامل ہوں تاکہ دوسرے سیکھنے والوں سے ملیں، آفس آورز میں شرکت کریں اور اپنے AI ایجنٹس کے سوالات کے جواب حاصل کریں۔

پچھلا سبق

Metacognition Design Pattern

اگلا سبق

Agentic Protocols


دستبرداری: اس دستاویز کا ترجمہ AI ترجمہ خدمت Co-op Translator کے ذریعہ کیا گیا ہے۔ اگرچہ ہم درستگی کی کوشش کرتے ہیں، براہ کرم آگاہ رہیں کہ خودکار تراجم میں غلطیاں یا نقائص ہو سکتے ہیں۔ اصل دستاویز اپنی مادری زبان میں ہی معتبر ماخذ سمجھی جائے۔ اہم معلومات کے لیے پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کی ہم ذمہ دار نہیں ہیں۔