Skip to content

Latest commit

 

History

History
93 lines (56 loc) · 8.42 KB

File metadata and controls

93 lines (56 loc) · 8.42 KB

Open Source Models

Úvod

Svět open-source LLMs je vzrušující a neustále se vyvíjí. Tato lekce si klade za cíl poskytnout podrobný pohled na open-source modely. Pokud hledáte informace o tom, jak se proprietární modely srovnávají s open-source modely, přejděte na lekci "Zkoumání a porovnávání různých LLMs". Tato lekce se také zabývá tématem jemného ladění, ale podrobnější vysvětlení najdete v lekci "Jemné ladění LLMs".

Cíle učení

  • Získat porozumění open-source modelům
  • Pochopit výhody práce s open-source modely
  • Prozkoumat dostupné open-source modely na Hugging Face a Azure AI Studio

Co jsou Open Source Modely?

Open-source software sehrál klíčovou roli v rozvoji technologií napříč různými obory. Open Source Initiative (OSI) definovala 10 kritérií pro software, aby mohl být klasifikován jako open source. Zdrojový kód musí být veřejně sdílen pod licencí schválenou OSI.

Ačkoli vývoj LLMs má podobné prvky jako vývoj softwaru, proces není úplně stejný. To vyvolalo mnoho diskusí v komunitě o definici open source v kontextu LLMs. Aby model odpovídal tradiční definici open source, měly by být veřejně dostupné následující informace:

  • Datové sady použité k trénování modelu.
  • Kompletní váhy modelu jako součást trénování.
  • Kód pro hodnocení.
  • Kód pro jemné ladění.
  • Kompletní váhy modelu a metriky trénování.

V současné době existuje jen několik modelů, které splňují tato kritéria. Model OLMo vytvořený Allen Institute for Artificial Intelligence (AllenAI) je jedním z těch, které odpovídají této kategorii.

Pro tuto lekci budeme modely dále označovat jako "open modely", protože v době psaní nemusí odpovídat výše uvedeným kritériím.

Výhody Open Modelů

Vysoce přizpůsobitelné - Protože open modely jsou vydávány s podrobnými informacemi o trénování, výzkumníci a vývojáři mohou upravovat interní části modelu. To umožňuje vytváření vysoce specializovaných modelů, které jsou jemně laděny pro konkrétní úkol nebo oblast studia. Některé příklady zahrnují generování kódu, matematické operace a biologii.

Náklady - Náklady na token při používání a nasazení těchto modelů jsou nižší než u proprietárních modelů. Při budování aplikací generativní AI by mělo být provedeno porovnání výkonu a ceny při práci s těmito modely na vašem konkrétním případu použití.

Model Cost
Zdroj: Artificial Analysis

Flexibilita - Práce s open modely umožňuje flexibilitu při používání různých modelů nebo jejich kombinování. Příkladem je HuggingChat Assistants, kde si uživatel může přímo v uživatelském rozhraní vybrat model, který bude použit:

Choose Model

Prozkoumání různých Open Modelů

Llama 2

LLama2, vyvinutý společností Meta, je open model optimalizovaný pro aplikace založené na chatu. To je způsobeno metodou jemného ladění, která zahrnovala velké množství dialogů a zpětné vazby od lidí. Díky této metodě model produkuje více výsledků, které odpovídají očekáváním lidí, což poskytuje lepší uživatelský zážitek.

Některé příklady jemně laděných verzí Llama zahrnují Japanese Llama, který se specializuje na japonštinu, a Llama Pro, což je vylepšená verze základního modelu.

Mistral

Mistral je open model s důrazem na vysoký výkon a efektivitu. Používá přístup Mixture-of-Experts, který kombinuje skupinu specializovaných expertních modelů do jednoho systému, kde v závislosti na vstupu jsou vybrány určité modely k použití. To činí výpočet efektivnějším, protože modely se zabývají pouze vstupy, na které jsou specializované.

Některé příklady jemně laděných verzí Mistral zahrnují BioMistral, který se zaměřuje na lékařskou oblast, a OpenMath Mistral, který provádí matematické výpočty.

Falcon

Falcon je LLM vytvořený Technology Innovation Institute (TII). Falcon-40B byl trénován na 40 miliardách parametrů, což se ukázalo jako lepší výkon než GPT-3 s menším výpočetním rozpočtem. To je způsobeno použitím algoritmu FlashAttention a multiquery attention, které umožňují snížit požadavky na paměť během doby inferencí. Díky této snížené době inferencí je Falcon-40B vhodný pro aplikace založené na chatu.

Některé příklady jemně laděných verzí Falcon zahrnují OpenAssistant, asistenta postaveného na open modelech, a GPT4ALL, který poskytuje vyšší výkon než základní model.

Jak vybrat

Neexistuje jednoznačná odpověď na otázku, jak vybrat open model. Dobré místo, kde začít, je použití funkce filtrování podle úkolu v Azure AI Studio. To vám pomůže pochopit, pro jaké typy úkolů byl model trénován. Hugging Face také udržuje LLM Leaderboard, který vám ukáže nejlépe hodnocené modely na základě určitých metrik.

Pokud hledáte porovnání LLMs napříč různými typy, Artificial Analysis je další skvělý zdroj:

Model Quality
Zdroj: Artificial Analysis

Pokud pracujete na konkrétním případu použití, hledání jemně laděných verzí zaměřených na stejnou oblast může být efektivní. Experimentování s více open modely, abyste zjistili, jak si vedou podle vašich očekávání a očekávání vašich uživatelů, je další dobrá praxe.

Další kroky

Nejlepší na open modelech je, že s nimi můžete začít pracovat poměrně rychle. Podívejte se na Azure AI Foundry Model Catalog, který obsahuje specifickou kolekci Hugging Face s modely, o kterých jsme zde diskutovali.

Učení nekončí zde, pokračujte v cestě

Po dokončení této lekce se podívejte na naši Generative AI Learning collection, abyste pokračovali v rozšiřování svých znalostí o generativní AI!


Prohlášení:
Tento dokument byl přeložen pomocí služby AI pro překlady Co-op Translator. Ačkoli se snažíme o přesnost, mějte na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.