Skip to content

Latest commit

 

History

History
91 lines (55 loc) · 12.5 KB

File metadata and controls

91 lines (55 loc) · 12.5 KB

Open Source Models

Введение

Мир открытых LLM-моделей захватывающий и постоянно развивается. Эта лекция призвана дать глубокое понимание открытых моделей. Если вы хотите узнать, как проприетарные модели сравниваются с открытыми, перейдите к уроку "Изучение и сравнение различных LLM". В этом уроке также затрагивается тема дообучения, но более подробное объяснение вы найдете в уроке "Дообучение LLM".

Цели обучения

  • Получить представление об открытых моделях
  • Понять преимущества работы с открытыми моделями
  • Изучить доступные открытые модели на Hugging Face и в Azure AI Studio

Что такое открытые модели?

Открытое программное обеспечение сыграло ключевую роль в развитии технологий в различных областях. Инициатива Open Source (OSI) определила 10 критериев для программного обеспечения, чтобы оно считалось открытым. Исходный код должен быть открыт и распространяться под лицензией, одобренной OSI.

Хотя разработка LLM во многом похожа на создание программного обеспечения, процесс не идентичен. Это вызвало много обсуждений в сообществе о том, что считать открытым исходным кодом в контексте LLM. Чтобы модель соответствовала традиционному определению открытого ПО, должна быть публично доступна следующая информация:

  • Датасеты, использованные для обучения модели.
  • Полные веса модели, полученные в ходе обучения.
  • Код для оценки модели.
  • Код для дообучения.
  • Полные веса модели и метрики обучения.

На данный момент лишь немногие модели соответствуют этим критериям. Одной из таких является модель OLMo, созданная Allen Institute for Artificial Intelligence (AllenAI).

В рамках этого урока мы будем называть такие модели "открытыми моделями", поскольку на момент написания они могут не полностью соответствовать вышеуказанным критериям.

Преимущества открытых моделей

Высокая настраиваемость — Поскольку открытые модели публикуются с подробной информацией об обучении, исследователи и разработчики могут изменять внутренние части модели. Это позволяет создавать специализированные модели, дообученные для конкретных задач или областей знаний. Примеры таких задач — генерация кода, математические вычисления и биология.

Стоимость — Стоимость использования и развертывания таких моделей на один токен ниже, чем у проприетарных моделей. При создании приложений на базе генеративного ИИ важно учитывать соотношение производительности и цены для вашей конкретной задачи.

Model Cost
Источник: Artificial Analysis

Гибкость — Работа с открытыми моделями позволяет использовать разные модели или комбинировать их. Например, в HuggingChat Assistants пользователь может выбрать модель прямо в интерфейсе:

Choose Model

Обзор различных открытых моделей

Llama 2

LLama2, разработанная Meta, — это открытая модель, оптимизированная для чат-приложений. Это связано с методом дообучения, включающим большое количество диалогов и обратную связь от людей. Благодаря этому модель генерирует ответы, которые лучше соответствуют ожиданиям пользователей, обеспечивая более комфортное взаимодействие.

Примеры дообученных версий Llama: Japanese Llama, специализирующаяся на японском языке, и Llama Pro, улучшенная версия базовой модели.

Mistral

Mistral — открытая модель с акцентом на высокую производительность и эффективность. Она использует подход Mixture-of-Experts, который объединяет группу специализированных экспертных моделей в одну систему, где в зависимости от входных данных выбираются определённые модели. Это делает вычисления более эффективными, так как каждая модель обрабатывает только те данные, в которых она специализируется.

Примеры дообученных версий Mistral: BioMistral, ориентированная на медицинскую область, и OpenMath Mistral, предназначенная для математических вычислений.

Falcon

Falcon — LLM, созданная Technology Innovation Institute (TII). Falcon-40B обучалась на 40 миллиардах параметров и показала лучшие результаты, чем GPT-3, при меньших вычислительных затратах. Это стало возможным благодаря алгоритму FlashAttention и multiquery attention, которые снижают требования к памяти во время инференса. Благодаря сокращённому времени вывода Falcon-40B подходит для чат-приложений.

Примеры дообученных версий Falcon: OpenAssistant, ассистент на базе открытых моделей, и GPT4ALL, обеспечивающий более высокую производительность по сравнению с базовой моделью.

Как выбрать

Однозначного ответа на вопрос, какую открытую модель выбрать, нет. Хорошей отправной точкой будет использование функции фильтрации по задачам в Azure AI Studio. Это поможет понять, для каких задач обучена модель. Hugging Face также ведёт таблицу лидеров LLM, где представлены лучшие модели по разным метрикам.

Если хотите сравнить LLM разных типов, Artificial Analysis — отличный ресурс:

Model Quality
Источник: Artificial Analysis

Если вы работаете над конкретной задачей, полезно искать дообученные версии, ориентированные на вашу область. Эксперименты с несколькими открытыми моделями помогут понять, как они соответствуют вашим и вашим пользователям ожиданиям.

Следующие шаги

Самое приятное в открытых моделях — вы можете быстро начать с ними работать. Ознакомьтесь с каталогом моделей Azure AI Studio, где есть специальная коллекция Hugging Face с моделями, обсуждаемыми в этом уроке.

Обучение не заканчивается здесь — продолжайте путь

После прохождения этого урока загляните в нашу коллекцию по генеративному ИИ, чтобы продолжить развивать свои знания в области генеративного ИИ!

Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия по обеспечению точности, просим учитывать, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется обращаться к профессиональному переводу, выполненному человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.