Skip to content

Latest commit

 

History

History
93 lines (56 loc) · 8.46 KB

File metadata and controls

93 lines (56 loc) · 8.46 KB

Open Source-modeller

Introduktion

Världen av öppna LLM-modeller är spännande och ständigt i förändring. Den här lektionen syftar till att ge en djupgående inblick i öppna modeller. Om du letar efter information om hur proprietära modeller jämförs med öppna modeller, gå till lektionen "Utforska och jämföra olika LLM-modeller". Den här lektionen kommer också att ta upp ämnet finjustering, men en mer detaljerad förklaring finns i lektionen "Finjustering av LLM-modeller".

Lärandemål

  • Få en förståelse för öppna modeller
  • Förstå fördelarna med att arbeta med öppna modeller
  • Utforska de öppna modeller som finns tillgängliga på Hugging Face och Azure AI Studio

Vad är öppna modeller?

Öppen källkod har spelat en avgörande roll i teknikens utveckling inom olika områden. Open Source Initiative (OSI) har definierat 10 kriterier för mjukvara för att klassificeras som öppen källkod. Källkoden måste delas öppet under en licens som är godkänd av OSI.

Även om utvecklingen av LLM-modeller har likheter med mjukvaruutveckling, är processen inte exakt densamma. Detta har lett till mycket diskussion i samhället om definitionen av öppen källkod i LLM-sammanhang. För att en modell ska överensstämma med den traditionella definitionen av öppen källkod bör följande information vara offentligt tillgänglig:

  • Dataset som används för att träna modellen.
  • Fullständiga modellvikter som en del av träningen.
  • Utvärderingskod.
  • Finjusteringskod.
  • Fullständiga modellvikter och träningsmetrik.

För närvarande finns det bara några få modeller som uppfyller dessa kriterier. OLMo-modellen skapad av Allen Institute for Artificial Intelligence (AllenAI) är en som passar in i denna kategori.

För den här lektionen kommer vi att hänvisa till modellerna som "öppna modeller" framöver eftersom de kanske inte uppfyller ovanstående kriterier vid skrivandets tidpunkt.

Fördelar med öppna modeller

Hög anpassningsbarhet - Eftersom öppna modeller släpps med detaljerad träningsinformation kan forskare och utvecklare modifiera modellens interna funktioner. Detta möjliggör skapandet av mycket specialiserade modeller som är finjusterade för en specifik uppgift eller studieområde. Några exempel på detta är kodgenerering, matematiska operationer och biologi.

Kostnad - Kostnaden per token för att använda och implementera dessa modeller är lägre än för proprietära modeller. När du bygger generativa AI-applikationer bör du jämföra prestanda och pris för dessa modeller i förhållande till din användning.

Modellkostnad
Källa: Artificial Analysis

Flexibilitet - Att arbeta med öppna modeller gör det möjligt att vara flexibel när det gäller att använda olika modeller eller kombinera dem. Ett exempel på detta är HuggingChat Assistants där användaren kan välja vilken modell som används direkt i användargränssnittet:

Välj Modell

Utforska olika öppna modeller

Llama 2

LLama2, utvecklad av Meta, är en öppen modell som är optimerad för chattbaserade applikationer. Detta beror på dess finjusteringsmetod, som inkluderade en stor mängd dialog och mänsklig feedback. Med denna metod producerar modellen fler resultat som är anpassade till mänskliga förväntningar, vilket ger en bättre användarupplevelse.

Några exempel på finjusterade versioner av Llama inkluderar Japanese Llama, som specialiserar sig på japanska, och Llama Pro, som är en förbättrad version av basmodellen.

Mistral

Mistral är en öppen modell med starkt fokus på hög prestanda och effektivitet. Den använder Mixture-of-Experts-metoden som kombinerar en grupp specialiserade expertmodeller till ett system där vissa modeller väljs beroende på input. Detta gör beräkningen mer effektiv eftersom modeller endast hanterar de inputs de är specialiserade på.

Några exempel på finjusterade versioner av Mistral inkluderar BioMistral, som fokuserar på det medicinska området, och OpenMath Mistral, som utför matematiska beräkningar.

Falcon

Falcon är en LLM skapad av Technology Innovation Institute (TII). Falcon-40B tränades på 40 miljarder parametrar och har visat sig prestera bättre än GPT-3 med mindre beräkningsbudget. Detta beror på dess användning av FlashAttention-algoritmen och multiquery attention som gör det möjligt att minska minneskraven vid inferenstid. Med denna reducerade inferenstid är Falcon-40B lämplig för chattapplikationer.

Några exempel på finjusterade versioner av Falcon är OpenAssistant, en assistent byggd på öppna modeller, och GPT4ALL, som levererar högre prestanda än basmodellen.

Hur man väljer

Det finns inget enkelt svar på hur man väljer en öppen modell. Ett bra ställe att börja är att använda Azure AI Studios filter för uppgifter. Detta hjälper dig att förstå vilka typer av uppgifter modellen har tränats för. Hugging Face upprätthåller också en LLM Leaderboard som visar de bäst presterande modellerna baserat på vissa metrik.

När du vill jämföra LLM-modeller över olika typer är Artificial Analysis en annan bra resurs:

Modellkvalitet
Källa: Artificial Analysis

Om du arbetar med ett specifikt användningsområde kan det vara effektivt att söka efter finjusterade versioner som fokuserar på samma område. Att experimentera med flera öppna modeller för att se hur de presterar enligt dina och dina användares förväntningar är också en bra praxis.

Nästa steg

Det bästa med öppna modeller är att du kan börja arbeta med dem ganska snabbt. Kolla in Azure AI Foundry Model Catalog, som innehåller en specifik Hugging Face-samling med de modeller vi diskuterade här.

Lärandet slutar inte här, fortsätt resan

Efter att ha avslutat denna lektion, kolla in vår Generative AI Learning collection för att fortsätta utveckla din kunskap om generativ AI!


Ansvarsfriskrivning:
Detta dokument har översatts med hjälp av AI-översättningstjänsten Co-op Translator. Även om vi strävar efter noggrannhet, bör det noteras att automatiserade översättningar kan innehålla fel eller felaktigheter. Det ursprungliga dokumentet på dess ursprungliga språk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning.