برای مشاهده ویدئوی این درس، روی تصویر بالا کلیک کنید
در درس قبلی، دیدیم که چگونه هوش مصنوعی تولیدی در حال تغییر چشمانداز فناوری است، مدلهای زبانی بزرگ (LLMs) چگونه کار میکنند و یک کسبوکار - مانند استارتاپ ما - چگونه میتواند از آنها در موارد استفاده خود بهرهبرداری کند و رشد کند! در این فصل، قصد داریم انواع مختلف مدلهای زبانی بزرگ را مقایسه کنیم تا مزایا و معایب آنها را بهتر درک کنیم.
گام بعدی در مسیر استارتاپ ما، بررسی چشمانداز فعلی مدلهای زبانی بزرگ و درک اینکه کدام یک برای موارد استفاده ما مناسب هستند، است.
این درس شامل موارد زیر خواهد بود:
- انواع مختلف مدلهای زبانی بزرگ در چشمانداز فعلی.
- آزمایش، تکرار و مقایسه مدلهای مختلف برای موارد استفاده شما در Azure.
- نحوه استقرار یک مدل زبانی بزرگ.
پس از تکمیل این درس، شما قادر خواهید بود:
- مدل مناسب برای موارد استفاده خود را انتخاب کنید.
- نحوه آزمایش، تکرار و بهبود عملکرد مدل خود را درک کنید.
- بدانید که کسبوکارها چگونه مدلها را مستقر میکنند.
مدلهای زبانی بزرگ میتوانند بر اساس معماری، دادههای آموزشی و موارد استفاده خود دستهبندی شوند. درک این تفاوتها به استارتاپ ما کمک میکند تا مدل مناسب برای سناریو را انتخاب کند و نحوه آزمایش، تکرار و بهبود عملکرد را بفهمد.
انواع مختلفی از مدلهای زبانی بزرگ وجود دارد و انتخاب شما بستگی به هدف استفاده، دادههای شما، بودجه و موارد دیگر دارد.
بسته به اینکه آیا قصد دارید از مدلها برای تولید متن، صدا، ویدئو، تصویر و غیره استفاده کنید، ممکن است نوع متفاوتی از مدل را انتخاب کنید.
-
تشخیص صدا و گفتار. برای این منظور، مدلهای نوع Whisper انتخاب بسیار خوبی هستند زیرا عمومی بوده و برای تشخیص گفتار طراحی شدهاند. این مدلها بر روی دادههای صوتی متنوع آموزش دیدهاند و میتوانند تشخیص گفتار چندزبانه انجام دهند. اطلاعات بیشتر درباره مدلهای نوع Whisper را اینجا بخوانید.
-
تولید تصویر. برای تولید تصویر، DALL-E و Midjourney دو انتخاب بسیار شناختهشده هستند. DALL-E توسط Azure OpenAI ارائه میشود. اطلاعات بیشتر درباره DALL-E را اینجا بخوانید و همچنین در فصل ۹ این دوره آموزشی.
-
تولید متن. بیشتر مدلها برای تولید متن آموزش دیدهاند و شما انتخابهای متنوعی از GPT-3.5 تا GPT-4 دارید. این مدلها هزینههای متفاوتی دارند و GPT-4 گرانترین است. ارزش دارد که به Azure OpenAI playground مراجعه کنید تا ارزیابی کنید کدام مدلها از نظر قابلیت و هزینه بهترین گزینه برای نیازهای شما هستند.
-
چندحالتی. اگر به دنبال مدیریت انواع مختلف دادهها در ورودی و خروجی هستید، ممکن است بخواهید مدلهایی مانند gpt-4 turbo با قابلیت دیداری یا gpt-4o را بررسی کنید - آخرین نسخههای مدلهای OpenAI - که قادر به ترکیب پردازش زبان طبیعی با درک بصری هستند و امکان تعامل از طریق رابطهای چندحالتی را فراهم میکنند.
انتخاب یک مدل به معنای دریافت برخی قابلیتهای پایه است، اما این ممکن است کافی نباشد. اغلب شما دادههای خاص شرکت خود را دارید که باید به نوعی به مدل زبانی بزرگ منتقل کنید. چندین روش مختلف برای این کار وجود دارد که در بخشهای بعدی بیشتر توضیح داده خواهد شد.
اصطلاح مدل پایه توسط پژوهشگران دانشگاه استنفورد معرفی شد و به عنوان یک مدل هوش مصنوعی تعریف شد که معیارهای خاصی را دنبال میکند، مانند:
- آنها با استفاده از یادگیری بدون نظارت یا یادگیری خودنظارتی آموزش داده میشوند، به این معنا که بر روی دادههای چندحالتی بدون برچسب آموزش داده میشوند و نیازی به برچسبگذاری یا حاشیهنویسی انسانی برای فرآیند آموزش ندارند.
- آنها مدلهای بسیار بزرگی هستند، بر اساس شبکههای عصبی بسیار عمیق که بر روی میلیاردها پارامتر آموزش داده شدهاند.
- آنها معمولاً به عنوان یک "پایه" برای مدلهای دیگر طراحی شدهاند، به این معنا که میتوانند به عنوان نقطه شروع برای ساخت مدلهای دیگر استفاده شوند، که این کار با تنظیم دقیق انجام میشود.
منبع تصویر: راهنمای ضروری برای مدلهای پایه و مدلهای زبانی بزرگ | نوشته بابار م بهاتی | Medium
برای روشنتر کردن این تفاوت، بیایید ChatGPT را به عنوان مثال در نظر بگیریم. برای ساخت نسخه اول ChatGPT، مدلی به نام GPT-3.5 به عنوان مدل پایه استفاده شد. این به این معناست که OpenAI از برخی دادههای خاص چت برای ایجاد نسخه تنظیمشدهای از GPT-3.5 استفاده کرد که در سناریوهای مکالمهای، مانند چتباتها، عملکرد خوبی داشت.
منبع تصویر: 2108.07258.pdf (arxiv.org)
یکی دیگر از روشهای دستهبندی مدلهای زبانی بزرگ این است که آیا آنها متنباز هستند یا اختصاصی.
مدلهای متنباز مدلهایی هستند که برای عموم در دسترس قرار دارند و هر کسی میتواند از آنها استفاده کند. این مدلها اغلب توسط شرکتی که آنها را ایجاد کرده یا جامعه پژوهشی در دسترس قرار میگیرند. این مدلها اجازه بررسی، تغییر و سفارشیسازی برای موارد استفاده مختلف در مدلهای زبانی بزرگ را میدهند. با این حال، همیشه برای استفاده در تولید بهینهسازی نشدهاند و ممکن است به اندازه مدلهای اختصاصی عملکرد خوبی نداشته باشند. علاوه بر این، تأمین مالی برای مدلهای متنباز ممکن است محدود باشد و ممکن است در بلندمدت نگهداری نشوند یا با آخرین پژوهشها بهروزرسانی نشوند. نمونههایی از مدلهای متنباز محبوب شامل Alpaca، Bloom و LLaMA هستند.
مدلهای اختصاصی مدلهایی هستند که متعلق به یک شرکت هستند و برای عموم در دسترس نیستند. این مدلها اغلب برای استفاده در تولید بهینهسازی شدهاند. با این حال، اجازه بررسی، تغییر یا سفارشیسازی برای موارد استفاده مختلف را نمیدهند. علاوه بر این، همیشه به صورت رایگان در دسترس نیستند و ممکن است نیاز به اشتراک یا پرداخت هزینه برای استفاده داشته باشند. همچنین، کاربران کنترل کاملی بر دادههایی که برای آموزش مدل استفاده میشود ندارند، به این معنا که باید به مالک مدل اعتماد کنند که به حفظ حریم خصوصی دادهها و استفاده مسئولانه از هوش مصنوعی متعهد باشد. نمونههایی از مدلهای اختصاصی محبوب شامل مدلهای OpenAI، Google Bard یا Claude 2 هستند.
مدلهای زبانی بزرگ همچنین میتوانند بر اساس خروجیای که تولید میکنند دستهبندی شوند.
جاسازیها مجموعهای از مدلها هستند که میتوانند متن را به صورت عددی تبدیل کنند، که به آن جاسازی گفته میشود و نمایشی عددی از متن ورودی است. جاسازیها درک روابط بین کلمات یا جملات را برای ماشینها آسانتر میکنند و میتوانند به عنوان ورودی توسط مدلهای دیگر مصرف شوند، مانند مدلهای طبقهبندی یا مدلهای خوشهبندی که عملکرد بهتری بر روی دادههای عددی دارند. مدلهای جاسازی اغلب برای یادگیری انتقالی استفاده میشوند، جایی که یک مدل برای یک وظیفه جانشین که دادههای زیادی برای آن وجود دارد ساخته میشود و سپس وزنهای مدل (جاسازیها) برای وظایف پاییندستی دیگر استفاده میشوند. نمونهای از این دسته جاسازیهای OpenAI است.
مدلهای تولید تصویر مدلهایی هستند که تصاویر تولید میکنند. این مدلها اغلب برای ویرایش تصویر، سنتز تصویر و ترجمه تصویر استفاده میشوند. مدلهای تولید تصویر اغلب بر روی مجموعه دادههای بزرگ تصاویر، مانند LAION-5B، آموزش داده میشوند و میتوانند برای تولید تصاویر جدید یا ویرایش تصاویر موجود با تکنیکهای inpainting، وضوح بالا و رنگآمیزی استفاده شوند. نمونهها شامل DALL-E-3 و مدلهای Stable Diffusion هستند.
مدلهای تولید متن و کد مدلهایی هستند که متن یا کد تولید میکنند. این مدلها اغلب برای خلاصهسازی متن، ترجمه و پاسخ به سوالات استفاده میشوند. مدلهای تولید متن اغلب بر روی مجموعه دادههای بزرگ متن، مانند BookCorpus، آموزش داده میشوند و میتوانند برای تولید متن جدید یا پاسخ به سوالات استفاده شوند. مدلهای تولید کد، مانند CodeParrot، اغلب بر روی مجموعه دادههای بزرگ کد، مانند GitHub، آموزش داده میشوند و میتوانند برای تولید کد جدید یا رفع اشکال در کد موجود استفاده شوند.
برای صحبت درباره انواع مختلف معماری مدلهای زبانی بزرگ، بیایید از یک قیاس استفاده کنیم.
تصور کنید مدیر شما وظیفهای به شما داده است که یک آزمون برای دانشآموزان بنویسید. شما دو همکار دارید؛ یکی مسئول ایجاد محتوا و دیگری مسئول بررسی آنها است.
ایجادکننده محتوا مانند یک مدل فقط Decoder است، او میتواند به موضوع نگاه کند و ببیند شما چه چیزی نوشتهاید و سپس بر اساس آن یک دوره بنویسد. آنها در نوشتن محتوای جذاب و آموزنده بسیار خوب هستند، اما در درک موضوع و اهداف یادگیری چندان خوب نیستند. برخی از نمونههای مدلهای Decoder شامل خانواده مدلهای GPT، مانند GPT-3 هستند.
بررسیکننده مانند یک مدل فقط Encoder است، او به دوره نوشتهشده و پاسخها نگاه میکند، رابطه بین آنها را متوجه میشود و زمینه را درک میکند، اما در تولید محتوا خوب نیست. نمونهای از مدل فقط Encoder میتواند BERT باشد.
تصور کنید که ما کسی را نیز داشته باشیم که بتواند آزمون را ایجاد و بررسی کند، این یک مدل Encoder-Decoder است. برخی از نمونهها شامل BART و T5 هستند.
حالا، بیایید درباره تفاوت بین سرویس و مدل صحبت کنیم. سرویس یک محصول است که توسط یک ارائهدهنده خدمات ابری ارائه میشود و اغلب ترکیبی از مدلها، دادهها و اجزای دیگر است. مدل هسته اصلی یک سرویس است و اغلب یک مدل پایه، مانند یک مدل زبانی بزرگ، است.
سرویسها اغلب برای استفاده در تولید بهینهسازی شدهاند و اغلب از طریق یک رابط کاربری گرافیکی استفاده آسانتری نسبت به مدلها دارند. با این حال، سرویسها همیشه رایگان نیستند و ممکن است نیاز به اشتراک یا پرداخت هزینه برای استفاده داشته باشند، در ازای استفاده از تجهیزات و منابع مالک سرویس، بهینهسازی هزینهها و مقیاسپذیری آسان. نمونهای از یک سرویس Azure OpenAI Service است که یک طرح نرخ پرداخت بهازایاستفاده ارائه میدهد، به این معنا که کاربران به نسبت میزان استفاده خود از سرویس هزینه پرداخت میکنند. همچنین، Azure OpenAI Service امنیت درجه سازمانی و چارچوب هوش مصنوعی مسئولانه را بر روی قابلیتهای مدلها ارائه میدهد.
مدلها فقط شبکه عصبی هستند، با پارامترها، وزنها و موارد دیگر. این امکان را به شرکتها میدهد که به صورت محلی اجرا کنند، اما نیاز به خرید تجهیزات، ساختار برای مقیاسپذیری و خرید مجوز یا استفاده از مدل متنباز دارند. مدلی مانند LLaMA برای استفاده در دسترس است و نیاز به قدرت محاسباتی برای اجرای مدل دارد.
پس از اینکه تیم ما چشمانداز فعلی مدلهای زبانی بزرگ را بررسی کرد و برخی از کاندیداهای مناسب برای سناریوهای خود را شناسایی کرد، گام بعدی آزمایش آنها بر روی دادهها و بار کاری خود است. این یک فرآیند تکراری است که از طریق آزمایشها و اندازهگیریها انجام میشود. بیشتر مدلهایی که در پاراگرافهای قبلی به آنها اشاره کردیم (مدلهای OpenAI، مدلهای متنباز مانند Llama2 و Hugging Face transformers) در کاتالوگ مدل در Azure AI Studio موجود هستند.
Azure AI Studio یک پلتفرم ابری است که برای توسعهدهندگان طراحی شده تا برنامههای هوش مصنوعی تولیدی بسازند و کل چرخه توسعه را - از آزمایش تا ارزیابی - مدیریت کنند. این پلتفرم با ترکیب تمام خدمات هوش مصنوعی Azure در یک مرکز واحد و رابط کاربری آسان، این امکان را فراهم میکند. کاتالوگ مدل در Azure AI Studio به کاربران اجازه میدهد:
- مدل پایه مورد نظر را در کاتالوگ پیدا کنند - چه اختصاصی باشد و چه متنباز - با فیلتر کردن بر اساس وظیفه، مجوز یا نام. برای بهبود قابلیت جستجو، مدلها در مجموعههایی مانند مجموعه Azure OpenAI، مجموعه Hugging Face و موارد دیگر سازماندهی شدهاند.
- کارت مدل را بررسی کنند، که شامل توضیحات دقیق در مورد استفاده مورد نظر و دادههای آموزشی، نمونههای کد و نتایج ارزیابی در کتابخانه ارزیابی داخلی است.
- مقایسه معیارها بین مدلها و مجموعه دادههای موجود در صنعت برای ارزیابی اینکه کدام یک با سناریوی کسبوکار مطابقت دارد، از طریق پنل Model Benchmarks.
- مدل را با دادههای آموزشی سفارشی تنظیم کنند تا عملکرد مدل در یک بار کاری خاص بهبود یابد، با استفاده از قابلیتهای آزمایش و ردیابی Azure AI Studio.
- مدل پیشآموزشدیده یا نسخه تنظیمشده آن را برای استنتاج بلادرنگ از راه دور - محاسبه مدیریتشده - یا نقطه پایانی API بدون سرور - پرداخت به ازای استفاده - مستقر کنند تا برنامهها بتوانند از آن استفاده کنند.
Note
همه مدلهای موجود در کاتالوگ در حال حاضر برای تنظیم و/یا استقرار پرداخت به ازای استفاده در دسترس نیستند. برای جزئیات در مورد قابلیتها و محدودیتهای مدل، کارت مدل را بررسی کنید.
ما با تیم استارتاپ خود انواع مختلفی از LLMها و یک پلتفرم ابری (Azure Machine Learning) را بررسی کردیم که به ما امکان مقایسه مدلهای مختلف، ارزیابی آنها بر روی دادههای آزمایشی، بهبود عملکرد و استقرار آنها بر روی نقاط پایانی استنتاج را میدهد.
اما چه زمانی باید تنظیم یک مدل را به جای استفاده از مدل پیشآموزشدیده در نظر گرفت؟ آیا روشهای دیگری برای بهبود عملکرد مدل در بارهای کاری خاص وجود دارد؟
چندین روش وجود دارد که یک کسبوکار میتواند برای دستیابی به نتایج مورد نیاز از یک LLM استفاده کند. شما میتوانید انواع مختلفی از مدلها با درجات مختلف آموزش را هنگام استقرار یک LLM در تولید انتخاب کنید، با سطوح مختلف پیچیدگی، هزینه و کیفیت. در اینجا چند روش مختلف آورده شده است:
-
مهندسی درخواست با زمینه. ایده این است که هنگام درخواست، زمینه کافی ارائه دهید تا پاسخهای مورد نیاز را دریافت کنید.
-
تولید بازیابی افزوده (RAG). دادههای شما ممکن است در یک پایگاه داده یا نقطه پایانی وب وجود داشته باشد. برای اطمینان از اینکه این دادهها یا زیرمجموعهای از آنها در زمان درخواست گنجانده شدهاند، میتوانید دادههای مرتبط را بازیابی کرده و آن را بخشی از درخواست کاربر کنید.
-
مدل تنظیمشده. در اینجا، شما مدل را بیشتر بر روی دادههای خود آموزش دادهاید که منجر به دقیقتر و پاسخگوتر شدن مدل به نیازهای شما میشود، اما ممکن است هزینهبر باشد.
منبع تصویر: چهار روش استقرار LLMها توسط شرکتها | وبلاگ Fiddler AI
LLMهای پیشآموزشدیده در وظایف عمومی زبان طبیعی بسیار خوب عمل میکنند، حتی با یک درخواست کوتاه، مانند یک جمله برای تکمیل یا یک سؤال - که به آن یادگیری "صفر شات" گفته میشود.
با این حال، هرچه کاربر بتواند درخواست خود را با جزئیات و مثالها - یعنی زمینه - بهتر بیان کند، پاسخ دقیقتر و نزدیکتر به انتظارات کاربر خواهد بود. در این حالت، اگر درخواست فقط شامل یک مثال باشد، از یادگیری "یک شات" صحبت میکنیم و اگر شامل چندین مثال باشد، از یادگیری "چند شات" صحبت میکنیم. مهندسی درخواست با زمینه، مقرونبهصرفهترین روش برای شروع است.
LLMها محدودیتی دارند که فقط میتوانند از دادههایی که در طول آموزش آنها استفاده شده است برای تولید پاسخ استفاده کنند. این بدان معناست که آنها هیچ اطلاعاتی درباره وقایعی که پس از فرآیند آموزش رخ دادهاند ندارند و نمیتوانند به اطلاعات غیرعمومی (مانند دادههای شرکت) دسترسی داشته باشند. این محدودیت را میتوان از طریق RAG برطرف کرد، تکنیکی که درخواست را با دادههای خارجی به صورت بخشهایی از اسناد تقویت میکند، با در نظر گرفتن محدودیتهای طول درخواست. این تکنیک توسط ابزارهای پایگاه داده برداری (مانند Azure Vector Search) پشتیبانی میشود که بخشهای مفید را از منابع داده از پیش تعریفشده بازیابی کرده و آنها را به زمینه درخواست اضافه میکنند.
این تکنیک زمانی بسیار مفید است که یک کسبوکار داده کافی، زمان کافی یا منابع لازم برای تنظیم یک LLM را ندارد، اما همچنان میخواهد عملکرد را در یک بار کاری خاص بهبود بخشد و خطرات جعل، یعنی تحریف واقعیت یا محتوای مضر را کاهش دهد.
تنظیم مدل فرآیندی است که از یادگیری انتقالی برای "انطباق" مدل با یک وظیفه پاییندستی یا حل یک مشکل خاص استفاده میکند. برخلاف یادگیری چند شات و RAG، این فرآیند منجر به ایجاد یک مدل جدید با وزنها و بایاسهای بهروزرسانیشده میشود. این فرآیند نیازمند مجموعهای از مثالهای آموزشی است که شامل یک ورودی (درخواست) و خروجی مرتبط با آن (تکمیل) میشود. این روش ترجیح داده میشود اگر:
-
استفاده از مدلهای تنظیمشده. یک کسبوکار بخواهد از مدلهای تنظیمشده کمقدرتتر (مانند مدلهای جاسازی) به جای مدلهای با عملکرد بالا استفاده کند، که منجر به یک راهحل مقرونبهصرفهتر و سریعتر میشود.
-
در نظر گرفتن تأخیر. تأخیر برای یک مورد استفاده خاص مهم است، بنابراین امکان استفاده از درخواستهای بسیار طولانی یا تعداد مثالهایی که باید از مدل یاد گرفته شود با محدودیت طول درخواست سازگار نیست.
-
بهروز ماندن. یک کسبوکار دادههای باکیفیت بالا و برچسبهای حقیقت زمینی زیادی دارد و منابع لازم برای نگهداری این دادهها بهروز در طول زمان را دارد.
آموزش یک LLM از ابتدا بدون شک دشوارترین و پیچیدهترین روش برای اتخاذ است، که نیازمند حجم عظیمی از دادهها، منابع ماهر و قدرت محاسباتی مناسب است. این گزینه فقط در سناریویی باید در نظر گرفته شود که یک کسبوکار یک مورد استفاده خاص دامنهای و مقدار زیادی داده متمرکز بر دامنه داشته باشد.
چه رویکردی میتواند برای بهبود نتایج تکمیل LLM مناسب باشد؟
- مهندسی درخواست با زمینه
- RAG
- مدل تنظیمشده
پاسخ: 3، اگر زمان و منابع و دادههای باکیفیت دارید، تنظیم مدل گزینه بهتری برای بهروز ماندن است. با این حال، اگر به دنبال بهبود هستید و زمان کافی ندارید، ابتدا RAG را در نظر بگیرید.
بیشتر درباره اینکه چگونه میتوانید از RAG استفاده کنید برای کسبوکار خود مطالعه کنید.
پس از تکمیل این درس، مجموعه یادگیری هوش مصنوعی تولیدی ما را بررسی کنید تا دانش خود را در زمینه هوش مصنوعی تولیدی ارتقا دهید!
به درس 3 بروید، جایی که به بررسی نحوه ساخت با هوش مصنوعی تولیدی بهصورت مسئولانه خواهیم پرداخت!
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، ترجمه حرفهای انسانی توصیه میشود. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.











