Skip to content

Latest commit

 

History

History
93 lines (56 loc) · 8.23 KB

File metadata and controls

93 lines (56 loc) · 8.23 KB

Open Source Models

Uvod

Svet odprtokodnih LLM-jev je vznemirljiv in se nenehno razvija. Namen te lekcije je podrobneje predstaviti odprtokodne modele. Če iščete informacije o primerjavi lastniških modelov z odprtokodnimi modeli, obiščite lekcijo "Raziskovanje in primerjava različnih LLM-jev". Ta lekcija bo obravnavala tudi temo prilagajanja modelov, vendar podrobnejšo razlago najdete v lekciji "Prilagajanje LLM-jev".

Cilji učenja

  • Razumevanje odprtokodnih modelov
  • Razumevanje prednosti dela z odprtokodnimi modeli
  • Raziskovanje odprtih modelov, ki so na voljo na platformah Hugging Face in Azure AI Studio

Kaj so odprtokodni modeli?

Odprtokodna programska oprema je igrala ključno vlogo pri razvoju tehnologije na različnih področjih. Pobuda za odprtokodno programsko opremo (OSI) je določila 10 kriterijev za programsko opremo, da jo lahko klasificiramo kot odprtokodno. Izvorna koda mora biti javno dostopna pod licenco, ki jo odobri OSI.

Čeprav razvoj LLM-jev vključuje podobne elemente kot razvoj programske opreme, proces ni povsem enak. To je v skupnosti sprožilo veliko razprav o definiciji odprtokodnosti v kontekstu LLM-jev. Da bi model ustrezal tradicionalni definiciji odprtokodnosti, morajo biti javno dostopne naslednje informacije:

  • Podatkovne zbirke, uporabljene za učenje modela.
  • Polne uteži modela kot del učenja.
  • Koda za evalvacijo.
  • Koda za prilagajanje.
  • Polne uteži modela in metrične vrednosti učenja.

Trenutno obstaja le nekaj modelov, ki ustrezajo tem kriterijem. Model OLMo, ki ga je ustvaril Allen Institute for Artificial Intelligence (AllenAI), je eden izmed njih.

V tej lekciji bomo modele v nadaljevanju imenovali "odprti modeli", saj morda ne ustrezajo zgoraj navedenim kriterijem v času pisanja.

Prednosti odprtih modelov

Visoka prilagodljivost - Ker so odprti modeli objavljeni z natančnimi informacijami o učenju, lahko raziskovalci in razvijalci spreminjajo notranjo strukturo modela. To omogoča ustvarjanje zelo specializiranih modelov, ki so prilagojeni za določeno nalogo ali področje raziskovanja. Nekateri primeri vključujejo generiranje kode, matematične operacije in biologijo.

Stroški - Stroški na žeton za uporabo in implementacijo teh modelov so nižji kot pri lastniških modelih. Pri gradnji aplikacij za generativno umetno inteligenco je treba upoštevati razmerje med zmogljivostjo in ceno glede na vaš primer uporabe.

Model Cost
Vir: Artificial Analysis

Prilagodljivost - Delo z odprtimi modeli omogoča prilagodljivost pri uporabi različnih modelov ali njihovi kombinaciji. Primer tega je HuggingChat Assistants, kjer lahko uporabnik neposredno v uporabniškem vmesniku izbere model, ki se uporablja:

Choose Model

Raziskovanje različnih odprtih modelov

Llama 2

LLama2, ki ga je razvil Meta, je odprti model, optimiziran za aplikacije, ki temeljijo na klepetu. To je posledica metode prilagajanja, ki je vključevala veliko količino dialogov in povratnih informacij uporabnikov. S to metodo model ustvarja rezultate, ki so bolj usklajeni s pričakovanji ljudi, kar zagotavlja boljšo uporabniško izkušnjo.

Nekateri primeri prilagojenih različic Llama vključujejo Japanese Llama, ki se specializira za japonščino, in Llama Pro, ki je izboljšana različica osnovnega modela.

Mistral

Mistral je odprti model, ki se osredotoča na visoko zmogljivost in učinkovitost. Uporablja pristop Mixture-of-Experts, ki združuje skupino specializiranih ekspertnih modelov v en sistem, kjer se glede na vhodne podatke izberejo določeni modeli za uporabo. To omogoča bolj učinkovito računalniško obdelavo, saj modeli obravnavajo le vhodne podatke, za katere so specializirani.

Nekateri primeri prilagojenih različic Mistral vključujejo BioMistral, ki se osredotoča na medicinsko področje, in OpenMath Mistral, ki izvaja matematične izračune.

Falcon

Falcon je LLM, ki ga je ustvaril Technology Innovation Institute (TII). Falcon-40B je bil usposobljen na 40 milijardah parametrov, kar se je izkazalo za boljše od GPT-3 z manjšo porabo računalniških virov. To je posledica uporabe algoritma FlashAttention in večpoizvedbene pozornosti, ki omogočata zmanjšanje zahtev po pomnilniku med časom sklepanja. Zaradi zmanjšanega časa sklepanja je Falcon-40B primeren za aplikacije za klepet.

Nekateri primeri prilagojenih različic Falcon so OpenAssistant, asistent, zgrajen na odprtih modelih, in GPT4ALL, ki zagotavlja boljšo zmogljivost kot osnovni model.

Kako izbrati

Ni enotnega odgovora na vprašanje, kako izbrati odprti model. Dober začetek je uporaba funkcije filtriranja po nalogah v Azure AI Studio. To vam bo pomagalo razumeti, za katere vrste nalog je bil model usposobljen. Hugging Face prav tako vzdržuje LLM Leaderboard, ki prikazuje najbolje delujoče modele glede na določene metrike.

Če želite primerjati LLM-je med različnimi vrstami, je Artificial Analysis še en odličen vir:

Model Quality
Vir: Artificial Analysis

Če delate na specifičnem primeru uporabe, je lahko učinkovito iskati prilagojene različice, ki se osredotočajo na isto področje. Preizkušanje več odprtih modelov, da vidite, kako se obnašajo glede na vaša pričakovanja in pričakovanja vaših uporabnikov, je prav tako dobra praksa.

Naslednji koraki

Najboljša stvar pri odprtih modelih je, da lahko z njimi začnete delati zelo hitro. Oglejte si Azure AI Foundry Model Catalog, ki vključuje posebno zbirko Hugging Face z modeli, o katerih smo govorili tukaj.

Učenje se tukaj ne konča, nadaljujte svojo pot

Po zaključku te lekcije si oglejte našo Generative AI Learning collection, da še naprej poglabljate svoje znanje o generativni umetni inteligenci!


Omejitev odgovornosti:
Ta dokument je bil preveden z uporabo storitve za prevajanje AI Co-op Translator. Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem maternem jeziku naj se šteje za avtoritativni vir. Za ključne informacije je priporočljivo profesionalno človeško prevajanje. Ne odgovarjamo za morebitna nesporazumevanja ali napačne razlage, ki izhajajo iz uporabe tega prevoda.