Skip to content

Latest commit

 

History

History
86 lines (49 loc) · 12.2 KB

File metadata and controls

86 lines (49 loc) · 12.2 KB

Open Source Models

Введение

Мир открытых LLM захватывающий и постоянно развивается. Эта лекция направлена на глубокое изучение открытых моделей. Если вы ищете информацию о том, как проприетарные модели сравниваются с открытыми, перейдите к уроку "Изучение и сравнение различных LLM". В этом уроке также будет рассмотрена тема дообучения, но более подробное объяснение можно найти в уроке "Дообучение LLM".

Цели обучения

  • Получить понимание открытых моделей
  • Понять преимущества работы с открытыми моделями
  • Изучить открытые модели, доступные на Hugging Face и в Azure AI Studio

Что такое открытые модели?

Открытое программное обеспечение сыграло ключевую роль в развитии технологий в различных областях. Инициатива Open Source (OSI) определила 10 критериев для программного обеспечения, чтобы оно классифицировалось как открытое. Исходный код должен быть открыто доступен под лицензией, одобренной OSI.

Хотя разработка LLM имеет сходные элементы с разработкой программного обеспечения, процесс не совсем одинаков. Это вызвало много обсуждений в сообществе о том, что означает открытость в контексте LLM. Чтобы модель соответствовала традиционному определению открытого ПО, следующая информация должна быть общедоступной:

  • Наборы данных, использованные для обучения модели.
  • Полные веса модели как часть обучения.
  • Код для оценки.
  • Код для дообучения.
  • Полные веса модели и метрики обучения.

В настоящее время существует лишь несколько моделей, соответствующих этим критериям. Модель OLMo, созданная Allen Institute for Artificial Intelligence (AllenAI) — одна из таких моделей.

В этой лекции мы будем называть модели "открытыми моделями", поскольку на момент написания они могут не полностью соответствовать вышеуказанным критериям.

Преимущества открытых моделей

Высокая настраиваемость — Поскольку открытые модели выпускаются с подробной информацией об обучении, исследователи и разработчики могут модифицировать внутренние части модели. Это позволяет создавать высокоспециализированные модели, дообученные для конкретной задачи или области. Примеры включают генерацию кода, математические операции и биологию.

Стоимость — Стоимость за токен при использовании и развертывании этих моделей ниже, чем у проприетарных моделей. При создании приложений Generative AI следует учитывать соотношение производительности и цены для вашей задачи.

Model Cost Источник: Artificial Analysis

Гибкость — Работа с открытыми моделями позволяет быть гибким в использовании различных моделей или их комбинаций. Примером являются HuggingChat Assistants, где пользователь может выбрать модель прямо в интерфейсе:

Choose Model

Изучение различных открытых моделей

Llama 2

LLama2, разработанная Meta, — это открытая модель, оптимизированная для чат-приложений. Это связано с методом дообучения, который включал большое количество диалогов и обратную связь от людей. Благодаря этому модель выдает результаты, более соответствующие ожиданиям человека, что улучшает пользовательский опыт.

Примеры дообученных версий Llama включают Japanese Llama, специализирующуюся на японском языке, и Llama Pro, улучшенную версию базовой модели.

Mistral

Mistral — открытая модель с сильным акцентом на высокую производительность и эффективность. Она использует подход Mixture-of-Experts, который объединяет группу специализированных экспертных моделей в одну систему, где в зависимости от входных данных выбираются определённые модели. Это делает вычисления более эффективными, так как модели обрабатывают только те входы, в которых они специализируются.

Примеры дообученных версий Mistral включают BioMistral, ориентированную на медицинскую область, и OpenMath Mistral, выполняющую математические вычисления.

Falcon

Falcon — LLM, созданная Technology Innovation Institute (TII). Falcon-40B обучалась на 40 миллиардах параметров и показала лучшие результаты, чем GPT-3, при меньших вычислительных затратах. Это связано с использованием алгоритма FlashAttention и multiquery attention, которые снижают требования к памяти во время вывода. Благодаря сокращенному времени вывода Falcon-40B подходит для чат-приложений.

Примеры дообученных версий Falcon — OpenAssistant, ассистент на базе открытых моделей, и GPT4ALL, обеспечивающий более высокую производительность, чем базовая модель.

Как выбрать

Однозначного ответа на выбор открытой модели нет. Хорошей отправной точкой является использование функции фильтрации по задачам в Azure AI Studio. Это поможет понять, для каких типов задач обучена модель. Hugging Face также поддерживает таблицу лидеров LLM, показывающую лучшие модели по определённым метрикам.

Для сравнения LLM разных типов отличным ресурсом является Artificial Analysis:

Model Quality Источник: Artificial Analysis

Если вы работаете над конкретным кейсом, поиск дообученных версий, ориентированных на ту же область, может быть эффективным. Эксперименты с несколькими открытыми моделями, чтобы оценить их производительность с точки зрения ваших и пользовательских ожиданий, — ещё одна хорошая практика.

Следующие шаги

Лучшее в открытых моделях — это то, что вы можете быстро начать с ними работать. Ознакомьтесь с Каталогом моделей Azure AI Foundry, который содержит специальную коллекцию Hugging Face с моделями, обсуждаемыми здесь.

Обучение не заканчивается здесь, продолжайте путь

После завершения этого урока ознакомьтесь с нашей коллекцией по обучению Generative AI, чтобы продолжить повышать свои знания в области Generative AI!


Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия по обеспечению точности, имейте в виду, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется обращаться к профессиональному переводу, выполненному человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.