Світ LLM з відкритим кодом захоплюючий і постійно змінюється. Цей урок має на меті надати детальний огляд моделей з відкритим кодом. Якщо ви шукаєте інформацію про те, як порівнюються пропрієтарні моделі з моделями з відкритим кодом, перейдіть до уроку "Дослідження та порівняння різних LLM". У цьому уроці також буде розглянута тема тонкого налаштування, але більш детальне пояснення можна знайти в уроці "Тонке налаштування LLM".
- Зрозуміти моделі з відкритим кодом
- Усвідомити переваги роботи з моделями з відкритим кодом
- Дослідити доступні моделі на Hugging Face та Azure AI Studio
Програмне забезпечення з відкритим кодом відіграло важливу роль у розвитку технологій у різних галузях. Ініціатива Open Source (OSI) визначила 10 критеріїв для програмного забезпечення, щоб його можна було класифікувати як відкритий код. Вихідний код має бути відкрито доступним під ліцензією, схваленою OSI.
Хоча розробка LLM має схожі елементи з розробкою програмного забезпечення, процес не є абсолютно однаковим. Це викликало багато дискусій у спільноті щодо визначення відкритого коду в контексті LLM. Щоб модель відповідала традиційному визначенню відкритого коду, наступна інформація має бути доступною для громадськості:
- Набори даних, використані для навчання моделі.
- Повні ваги моделі як частина навчання.
- Код оцінювання.
- Код тонкого налаштування.
- Повні ваги моделі та метрики навчання.
На даний момент лише кілька моделей відповідають цим критеріям. Модель OLMo, створена Інститутом штучного інтелекту Аллена (AllenAI) є однією з таких.
У цьому уроці ми будемо називати моделі "відкритими моделями", оскільки вони можуть не відповідати вищезазначеним критеріям на момент написання.
Висока налаштовуваність - Оскільки відкриті моделі випускаються з детальною інформацією про навчання, дослідники та розробники можуть змінювати внутрішню структуру моделі. Це дозволяє створювати високоспеціалізовані моделі, які тонко налаштовані для конкретного завдання або області дослідження. Деякі приклади включають генерацію коду, математичні операції та біологію.
Вартість - Вартість за токен при використанні та розгортанні цих моделей нижча, ніж у пропрієтарних моделей. При створенні додатків на основі генеративного AI слід враховувати співвідношення продуктивності та ціни для вашого випадку використання.
Гнучкість - Робота з відкритими моделями дозволяє бути гнучким у використанні різних моделей або їх комбінуванні. Прикладом цього є HuggingChat Assistants, де користувач може вибрати модель, яка використовується безпосередньо в інтерфейсі:
LLama2, розроблена Meta, є відкритою моделлю, оптимізованою для додатків на основі чатів. Це завдяки методу тонкого налаштування, який включав велику кількість діалогів і зворотного зв'язку від людей. Завдяки цьому методу модель генерує більше результатів, які відповідають очікуванням людей, що забезпечує кращий користувацький досвід.
Деякі приклади тонко налаштованих версій Llama включають Japanese Llama, яка спеціалізується на японській мові, та Llama Pro, яка є покращеною версією базової моделі.
Mistral є відкритою моделлю, яка зосереджена на високій продуктивності та ефективності. Вона використовує підхід Mixture-of-Experts, який об'єднує групу спеціалізованих експертних моделей в одну систему, де залежно від введених даних вибираються певні моделі для використання. Це робить обчислення більш ефективними, оскільки моделі обробляють лише ті дані, в яких вони спеціалізуються.
Деякі приклади тонко налаштованих версій Mistral включають BioMistral, яка зосереджена на медичній галузі, та OpenMath Mistral, яка виконує математичні обчислення.
Falcon є LLM, створеною Інститутом технологічних інновацій (TII). Falcon-40B була навчена на 40 мільярдах параметрів, що показало кращу продуктивність, ніж GPT-3, при меншому обчислювальному бюджеті. Це завдяки використанню алгоритму FlashAttention та багатозапитної уваги, які дозволяють зменшити вимоги до пам'яті під час інференції. Завдяки зменшеному часу інференції Falcon-40B підходить для додатків на основі чатів.
Деякі приклади тонко налаштованих версій Falcon включають OpenAssistant, асистента, побудованого на відкритих моделях, та GPT4ALL, який забезпечує вищу продуктивність, ніж базова модель.
Немає єдиної правильної відповіді на питання, як обрати відкриту модель. Хорошим початком може бути використання функції фільтрації за завданням в Azure AI Studio. Це допоможе вам зрозуміти, для яких типів завдань модель була навчена. Hugging Face також підтримує рейтинг LLM, який показує найкращі моделі за певними метриками.
При порівнянні LLM між різними типами Artificial Analysis є ще одним чудовим ресурсом:
Якщо ви працюєте над конкретним випадком використання, ефективним може бути пошук тонко налаштованих версій, які зосереджені на тій самій області. Експериментування з кількома відкритими моделями, щоб побачити, як вони працюють відповідно до ваших очікувань і очікувань ваших користувачів, також є хорошою практикою.
Найкраще у відкритих моделях те, що ви можете швидко почати працювати з ними. Ознайомтеся з каталогом моделей Azure AI Foundry, який містить спеціальну колекцію Hugging Face з моделями, які ми тут обговорювали.
Після завершення цього уроку ознайомтеся з нашою колекцією навчальних матеріалів з генеративного AI, щоб продовжити вдосконалювати свої знання про генеративний AI!
Відмова від відповідальності:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу.



