Skip to content

Latest commit

 

History

History
86 lines (49 loc) · 7.82 KB

File metadata and controls

86 lines (49 loc) · 7.82 KB

Open Source Models

Uvod

Svet odprtokodnih LLM-jev je razburljiv in se nenehno razvija. Ta lekcija si prizadeva zagotoviti poglobljen vpogled v odprtokodne modele. Če iščete informacije o tem, kako se lastniški modeli primerjajo z odprtokodnimi modeli, pojdite na lekcijo "Raziskovanje in primerjava različnih LLM-jev". Ta lekcija bo prav tako obravnavala temo fino nastavljanja, vendar lahko podrobnejšo razlago najdete v lekciji "Fino nastavljanje LLM-jev".

Cilji učenja

  • Pridobiti razumevanje odprtokodnih modelov
  • Razumevanje koristi dela z odprtokodnimi modeli
  • Raziskovanje odprtih modelov, ki so na voljo na Hugging Face in Azure AI Studio

Kaj so odprtokodni modeli?

Odprtokodna programska oprema je igrala ključno vlogo pri rasti tehnologije na različnih področjih. Iniciativa za odprto kodo (OSI) je opredelila 10 meril za programsko opremo, da se lahko klasificira kot odprtokodna. Izvorna koda mora biti javno deljena pod licenco, ki jo odobri OSI.

Čeprav ima razvoj LLM-jev podobne elemente kot razvoj programske opreme, postopek ni povsem enak. To je povzročilo veliko razprav v skupnosti o definiciji odprte kode v kontekstu LLM-jev. Da bi bil model usklajen s tradicionalno definicijo odprte kode, bi morale biti javno dostopne naslednje informacije:

  • Podatkovni nizi, uporabljeni za usposabljanje modela.
  • Polne uteži modela kot del usposabljanja.
  • Koda za ocenjevanje.
  • Koda za fino nastavljanje.
  • Polne uteži modela in metrike usposabljanja.

Trenutno obstaja le nekaj modelov, ki ustrezajo tem merilom. OLMo model, ki ga je ustvaril Allen Institute for Artificial Intelligence (AllenAI) je eden izmed njih.

Za to lekcijo bomo modele naprej imenovali "odprti modeli", saj morda v času pisanja ne ustrezajo zgornjim merilom.

Prednosti odprtih modelov

Zelo prilagodljivi - Ker so odprti modeli izdani z podrobnimi informacijami o usposabljanju, lahko raziskovalci in razvijalci spreminjajo notranjost modela. To omogoča ustvarjanje zelo specializiranih modelov, ki so fino nastavljeni za določen nalogo ali področje študija. Nekateri primeri tega so generiranje kode, matematične operacije in biologija.

Stroški - Stroški na token za uporabo in uvajanje teh modelov so nižji kot pri lastniških modelih. Pri gradnji aplikacij Generativne AI je treba upoštevati razmerje med zmogljivostjo in ceno pri delu s temi modeli za vaš primer uporabe.

Model Cost Vir: Artificial Analysis

Fleksibilnost - Delo z odprtimi modeli vam omogoča fleksibilnost pri uporabi različnih modelov ali njihovi kombinaciji. Primer tega so HuggingChat asistenti, kjer lahko uporabnik neposredno v uporabniškem vmesniku izbere model, ki se uporablja:

Choose Model

Raziskovanje različnih odprtih modelov

Llama 2

LLama2, ki ga je razvil Meta, je odprt model, optimiziran za aplikacije, ki temeljijo na klepetu. To je posledica njegove metode fino nastavljanja, ki je vključevala veliko količino dialoga in povratnih informacij ljudi. S to metodo model proizvaja rezultate, ki so bolj usklajeni s pričakovanji ljudi, kar zagotavlja boljšo uporabniško izkušnjo.

Nekateri primeri fino nastavljenih različic Llama vključujejo japonski Llama, ki je specializiran za japonščino, in Llama Pro, ki je izboljšana različica osnovnega modela.

Mistral

Mistral je odprt model s poudarkom na visoki zmogljivosti in učinkovitosti. Uporablja pristop mešanice strokovnjakov (Mixture-of-Experts), ki združuje skupino specializiranih strokovnih modelov v en sistem, kjer se glede na vhod izberejo določeni modeli za uporabo. To naredi izračun bolj učinkovit, saj modeli obravnavajo le tiste vhode, na katerih so specializirani.

Nekateri primeri fino nastavljenih različic Mistral vključujejo BioMistral, ki je osredotočen na medicinsko področje, in OpenMath Mistral, ki izvaja matematične izračune.

Falcon

Falcon je LLM, ki ga je ustvaril Technology Innovation Institute (TII). Falcon-40B je bil usposobljen na 40 milijardah parametrov, kar je pokazalo boljše rezultate kot GPT-3 z manjšo porabo računalniških virov. To je posledica uporabe algoritma FlashAttention in multiquery pozornosti, ki omogočata zmanjšanje zahtev po pomnilniku med izvajanjem. Zaradi skrajšanega časa izvajanja je Falcon-40B primeren za klepetalne aplikacije.

Nekateri primeri fino nastavljenih različic Falcon so OpenAssistant, asistent zgrajen na odprtih modelih, in GPT4ALL, ki nudi boljšo zmogljivost kot osnovni model.

Kako izbrati

Za izbiro odprtega modela ni enega samega odgovora. Dobro izhodišče je uporaba funkcije filtriranja po nalogi v Azure AI Studiu. To vam bo pomagalo razumeti, za katere vrste nalog je bil model usposobljen. Hugging Face prav tako vzdržuje LLM lestvico, ki prikazuje najboljše modele glede na določene metrike.

Če želite primerjati LLM-je med različnimi vrstami, je Artificial Analysis še en odličen vir:

Model Quality Vir: Artificial Analysis

Če delate na specifičnem primeru uporabe, je lahko učinkovito iskati fino nastavljene različice, ki so osredotočene na isto področje. Eksperimentiranje z več odprtimi modeli, da vidite, kako delujejo glede na vaša in pričakovanja vaših uporabnikov, je prav tako dobra praksa.

Naslednji koraki

Najboljše pri odprtih modelih je, da lahko z njimi začnete delati zelo hitro. Oglejte si Azure AI Foundry Model Catalog, ki vsebuje posebno zbirko Hugging Face s temi modeli, o katerih smo tukaj govorili.

Učenje se tukaj ne konča, nadaljujte pot

Po zaključku te lekcije si oglejte našo zbirko za učenje Generativne AI, da nadaljujete z nadgradnjo svojega znanja o Generativni AI!


Omejitev odgovornosti: Ta dokument je bil preveden z uporabo storitve za prevajanje z umetno inteligenco Co-op Translator. Čeprav si prizadevamo za natančnost, vas opozarjamo, da avtomatizirani prevodi lahko vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku velja za avtoritativni vir. Za ključne informacije priporočamo strokovni človeški prevod. Za morebitna nesporazume ali napačne interpretacije, ki izhajajo iz uporabe tega prevoda, ne odgovarjamo.