Skip to content

Latest commit

 

History

History
95 lines (58 loc) · 8.3 KB

File metadata and controls

95 lines (58 loc) · 8.3 KB

Open Source Models

Introduktion

Verdenen af open source LLM'er er spændende og i konstant udvikling. Denne lektion har til formål at give et dybdegående kig på open source modeller. Hvis du leder efter information om, hvordan proprietære modeller sammenlignes med open source modeller, gå til "Exploring and Comparing Different LLMs" lektionen. Denne lektion vil også dække emnet finjustering, men en mere detaljeret forklaring kan findes i "Fine-Tuning LLMs" lektionen.

Læringsmål

  • Få en forståelse af open source modeller
  • Forstå fordelene ved at arbejde med open source modeller
  • Udforske de åbne modeller, der er tilgængelige på Hugging Face og Azure AI Studio

Hvad er Open Source Modeller?

Open source software har spillet en afgørende rolle i væksten af teknologi på tværs af forskellige felter. Open Source Initiative (OSI) har defineret 10 kriterier for software for at blive klassificeret som open source. Kildekoden skal være åbent delt under en licens godkendt af OSI.

Selvom udviklingen af LLM'er har lignende elementer som softwareudvikling, er processen ikke helt den samme. Dette har ført til megen diskussion i fællesskabet om definitionen af open source i konteksten af LLM'er. For at en model skal være i overensstemmelse med den traditionelle definition af open source, bør følgende information være offentligt tilgængelig:

  • Datasæt brugt til at træne modellen.
  • Fuld modelvægt som en del af træningen.
  • Evalueringskoden.
  • Finjusteringskoden.
  • Fuld modelvægt og træningsmålinger.

Der er i øjeblikket kun få modeller, der opfylder disse kriterier. OLMo-modellen skabt af Allen Institute for Artificial Intelligence (AllenAI) er en, der passer til denne kategori.

For denne lektion vil vi fremover referere til modellerne som "åbne modeller", da de muligvis ikke opfylder ovenstående kriterier på tidspunktet for skrivningen.

Fordele ved Åbne Modeller

Meget Tilpasningsdygtige - Da åbne modeller frigives med detaljeret træningsinformation, kan forskere og udviklere ændre modellens interne dele. Dette muliggør skabelsen af meget specialiserede modeller, der er finjusteret til en specifik opgave eller studieområde. Nogle eksempler på dette er kodegenerering, matematiske operationer og biologi.

Omkostninger - Omkostningen pr. token for at bruge og implementere disse modeller er lavere end for proprietære modeller. Når man bygger Generative AI-applikationer, bør man overveje ydeevne versus pris, når man arbejder med disse modeller i sin brugssag.

Model Cost Kilde: Artificial Analysis

Fleksibilitet - At arbejde med åbne modeller giver dig fleksibilitet i forhold til at bruge forskellige modeller eller kombinere dem. Et eksempel på dette er HuggingChat Assistants, hvor en bruger kan vælge den model, der bruges, direkte i brugergrænsefladen:

Choose Model

Udforskning af Forskellige Åbne Modeller

Llama 2

LLama2, udviklet af Meta, er en åben model, der er optimeret til chatbaserede applikationer. Dette skyldes dens finjusteringsmetode, som inkluderede en stor mængde dialog og menneskelig feedback. Med denne metode producerer modellen flere resultater, der er i overensstemmelse med menneskelige forventninger, hvilket giver en bedre brugeroplevelse.

Nogle eksempler på finjusterede versioner af Llama inkluderer Japanese Llama, som specialiserer sig i japansk, og Llama Pro, som er en forbedret version af basismodellen.

Mistral

Mistral er en åben model med stærkt fokus på høj ydeevne og effektivitet. Den bruger Mixture-of-Experts-tilgangen, som kombinerer en gruppe specialiserede ekspertmodeller i ét system, hvor visse modeller vælges afhængigt af inputtet. Dette gør beregningen mere effektiv, da modeller kun adresserer de input, de er specialiserede i.

Nogle eksempler på finjusterede versioner af Mistral inkluderer BioMistral, som fokuserer på det medicinske domæne, og OpenMath Mistral, som udfører matematiske beregninger.

Falcon

Falcon er en LLM skabt af Technology Innovation Institute (TII). Falcon-40B blev trænet på 40 milliarder parametre, hvilket har vist sig at præstere bedre end GPT-3 med et mindre beregningsbudget. Dette skyldes brugen af FlashAttention-algoritmen og multiquery attention, som gør det muligt at reducere hukommelseskravene ved inferenstid. Med denne reducerede inferenstid er Falcon-40B velegnet til chatapplikationer.

Nogle eksempler på finjusterede versioner af Falcon er OpenAssistant, en assistent bygget på åbne modeller, og GPT4ALL, som leverer højere ydeevne end basismodellen.

Hvordan Vælger Man

Der findes ikke ét svar på, hvordan man vælger en åben model. Et godt sted at starte er ved at bruge Azure AI Studios filterfunktion efter opgave. Dette vil hjælpe dig med at forstå, hvilke typer opgaver modellen er trænet til. Hugging Face vedligeholder også en LLM Leaderboard, som viser de bedst præsterende modeller baseret på visse målinger.

Når man ønsker at sammenligne LLM'er på tværs af forskellige typer, er Artificial Analysis en anden god ressource:

Model Quality Kilde: Artificial Analysis

Hvis man arbejder på en specifik brugssag, kan det være effektivt at søge efter finjusterede versioner, der fokuserer på samme område. At eksperimentere med flere åbne modeller for at se, hvordan de præsterer i forhold til dine og dine brugeres forventninger, er også en god praksis.

Næste Skridt

Det bedste ved åbne modeller er, at du kan komme i gang med at arbejde med dem ret hurtigt. Tjek Azure AI Foundry Model Catalog, som indeholder en specifik Hugging Face-samling med de modeller, vi har diskuteret her.

Læringen stopper ikke her, fortsæt rejsen

Efter at have gennemført denne lektion, tjek vores Generative AI Learning collection for at fortsætte med at opgradere din viden om Generative AI!


Ansvarsfraskrivelse: Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten Co-op Translator. Selvom vi bestræber os på nøjagtighed, bedes du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det oprindelige dokument på dets modersmål bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der opstår som følge af brugen af denne oversættelse.