Skip to content

Latest commit

 

History

History
86 lines (49 loc) · 11.2 KB

File metadata and controls

86 lines (49 loc) · 11.2 KB

مدل‌های متن‌باز

مقدمه

دنیای مدل‌های زبان بزرگ متن‌باز هیجان‌انگیز و پیوسته در حال تحول است. هدف این درس ارائه نگاهی عمیق به مدل‌های متن‌باز است. اگر به دنبال اطلاعاتی درباره مقایسه مدل‌های اختصاصی با مدل‌های متن‌باز هستید، به درس "بررسی و مقایسه مدل‌های مختلف زبان بزرگ" مراجعه کنید. این درس همچنین موضوع تنظیم دقیق را پوشش می‌دهد اما توضیح مفصل‌تر را می‌توانید در درس "تنظیم دقیق مدل‌های زبان بزرگ" بیابید.

اهداف یادگیری

  • کسب درک از مدل‌های متن‌باز
  • فهم مزایای کار با مدل‌های متن‌باز
  • بررسی مدل‌های متن‌باز موجود در Hugging Face و Azure AI Studio

مدل‌های متن‌باز چیستند؟

نرم‌افزار متن‌باز نقش مهمی در رشد فناوری در زمینه‌های مختلف ایفا کرده است. ابتکار متن‌باز (OSI) ۱۰ معیار برای نرم‌افزار تعریف کرده است تا به عنوان متن‌باز طبقه‌بندی شود. کد منبع باید تحت مجوزی که توسط OSI تأیید شده است، به‌صورت آزاد به اشتراک گذاشته شود.

در حالی که توسعه مدل‌های زبان بزرگ شباهت‌هایی با توسعه نرم‌افزار دارد، فرآیند دقیقاً یکسان نیست. این موضوع بحث‌های زیادی در جامعه درباره تعریف متن‌باز در زمینه مدل‌های زبان بزرگ ایجاد کرده است. برای اینکه یک مدل با تعریف سنتی متن‌باز هم‌راستا باشد، اطلاعات زیر باید به‌صورت عمومی در دسترس باشد:

  • داده‌های استفاده شده برای آموزش مدل
  • وزن‌های کامل مدل به عنوان بخشی از آموزش
  • کد ارزیابی
  • کد تنظیم دقیق
  • وزن‌های کامل مدل و معیارهای آموزش

در حال حاضر تنها چند مدل وجود دارند که این معیارها را برآورده می‌کنند. مدل OLMo ساخته شده توسط مؤسسه آلن برای هوش مصنوعی (AllenAI) یکی از این مدل‌ها است.

برای این درس، ما به این مدل‌ها به عنوان "مدل‌های متن‌باز" اشاره خواهیم کرد زیرا ممکن است در زمان نگارش، دقیقاً با معیارهای فوق مطابقت نداشته باشند.

مزایای مدل‌های متن‌باز

قابلیت سفارشی‌سازی بالا - از آنجا که مدل‌های متن‌باز با اطلاعات دقیق آموزش منتشر می‌شوند، پژوهشگران و توسعه‌دهندگان می‌توانند ساختار داخلی مدل را تغییر دهند. این امکان ایجاد مدل‌های بسیار تخصصی که برای یک وظیفه یا حوزه خاص تنظیم دقیق شده‌اند را فراهم می‌کند. برخی از نمونه‌ها شامل تولید کد، عملیات ریاضی و زیست‌شناسی هستند.

هزینه - هزینه به ازای هر توکن برای استفاده و استقرار این مدل‌ها کمتر از مدل‌های اختصاصی است. هنگام ساخت برنامه‌های هوش مصنوعی مولد، باید عملکرد در مقابل قیمت را هنگام کار با این مدل‌ها در مورد استفاده خود بررسی کنید.

هزینه مدل
منبع: Artificial Analysis

انعطاف‌پذیری - کار با مدل‌های متن‌باز به شما امکان می‌دهد در استفاده از مدل‌های مختلف یا ترکیب آن‌ها انعطاف‌پذیر باشید. نمونه‌ای از این مورد دستیارهای HuggingChat است که کاربر می‌تواند مدل مورد استفاده را مستقیماً در رابط کاربری انتخاب کند:

انتخاب مدل

بررسی مدل‌های متن‌باز مختلف

Llama 2

LLama2 که توسط Meta توسعه یافته، یک مدل متن‌باز است که برای برنامه‌های مبتنی بر گفتگو بهینه شده است. این به دلیل روش تنظیم دقیق آن است که شامل مقدار زیادی دیالوگ و بازخورد انسانی بود. با این روش، مدل نتایجی تولید می‌کند که بیشتر با انتظار انسان هم‌راستا است و تجربه کاربری بهتری فراهم می‌کند.

برخی از نسخه‌های تنظیم دقیق شده Llama شامل Llama ژاپنی که در زبان ژاپنی تخصص دارد و Llama Pro که نسخه بهبود یافته مدل پایه است.

Mistral

Mistral یک مدل متن‌باز با تمرکز قوی بر عملکرد بالا و کارایی است. این مدل از رویکرد Mixture-of-Experts استفاده می‌کند که گروهی از مدل‌های تخصصی را در یک سیستم ترکیب می‌کند که بسته به ورودی، مدل‌های خاصی برای استفاده انتخاب می‌شوند. این باعث می‌شود محاسبات مؤثرتر باشد زیرا مدل‌ها فقط به ورودی‌هایی که در آن تخصص دارند پاسخ می‌دهند.

برخی از نسخه‌های تنظیم دقیق شده Mistral شامل BioMistral که بر حوزه پزشکی تمرکز دارد و OpenMath Mistral که محاسبات ریاضی انجام می‌دهد.

Falcon

Falcon یک مدل زبان بزرگ است که توسط مؤسسه نوآوری فناوری (TII) ساخته شده است. Falcon-40B بر روی ۴۰ میلیارد پارامتر آموزش دیده است که نشان داده شده عملکرد بهتری نسبت به GPT-3 با بودجه محاسباتی کمتر دارد. این به دلیل استفاده از الگوریتم FlashAttention و توجه چندپرسشی است که به آن امکان می‌دهد نیازهای حافظه را در زمان استنتاج کاهش دهد. با این زمان استنتاج کاهش یافته، Falcon-40B برای برنامه‌های گفتگو مناسب است.

برخی از نسخه‌های تنظیم دقیق شده Falcon شامل OpenAssistant که یک دستیار ساخته شده بر اساس مدل‌های متن‌باز است و GPT4ALL که عملکرد بالاتری نسبت به مدل پایه ارائه می‌دهد.

چگونه انتخاب کنیم

پاسخ واحدی برای انتخاب یک مدل متن‌باز وجود ندارد. نقطه شروع خوب استفاده از ویژگی فیلتر بر اساس وظیفه در Azure AI Studio است. این به شما کمک می‌کند بفهمید مدل برای چه نوع وظایفی آموزش دیده است. Hugging Face همچنین یک جدول رده‌بندی مدل‌های زبان بزرگ دارد که بهترین مدل‌ها را بر اساس معیارهای خاص نشان می‌دهد.

برای مقایسه مدل‌های زبان بزرگ در انواع مختلف، Artificial Analysis منبع عالی دیگری است:

کیفیت مدل
منبع: Artificial Analysis

اگر روی یک مورد استفاده خاص کار می‌کنید، جستجوی نسخه‌های تنظیم دقیق شده که بر همان حوزه تمرکز دارند می‌تواند مؤثر باشد. آزمایش با چند مدل متن‌باز برای دیدن عملکرد آن‌ها بر اساس انتظارات شما و کاربران‌تان نیز روش خوبی است.

گام‌های بعدی

بهترین بخش مدل‌های متن‌باز این است که می‌توانید به سرعت شروع به کار با آن‌ها کنید. کاتالوگ مدل Azure AI Foundry را بررسی کنید که شامل مجموعه‌ای خاص از Hugging Face با این مدل‌هایی است که در اینجا بحث کردیم.

یادگیری اینجا متوقف نمی‌شود، سفر را ادامه دهید

پس از اتمام این درس، مجموعه یادگیری هوش مصنوعی مولد ما را بررسی کنید تا دانش هوش مصنوعی مولد خود را ارتقا دهید!


سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما در تلاش برای دقت هستیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است حاوی خطاها یا نادرستی‌هایی باشند. سند اصلی به زبان بومی خود باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما مسئول هیچ گونه سوءتفاهم یا تفسیر نادرستی که از استفاده این ترجمه ناشی شود، نیستیم.