Skip to content

Latest commit

 

History

History
93 lines (56 loc) · 8.58 KB

File metadata and controls

93 lines (56 loc) · 8.58 KB

Avoimet lähdemallit

Johdanto

Avoimen lähdekoodin LLM-mallit ovat jännittävä ja jatkuvasti kehittyvä alue. Tämän oppitunnin tarkoituksena on tarjota syvällinen katsaus avoimiin lähdemalleihin. Jos etsit tietoa siitä, miten suljetut mallit vertautuvat avoimiin malleihin, siirry "Erilaisten LLM-mallien tutkiminen ja vertailu" -oppituntiin. Tässä oppitunnissa käsitellään myös hienosäätöä, mutta yksityiskohtaisempi selitys löytyy "LLM-mallien hienosäätö" -oppitunnista.

Oppimistavoitteet

  • Ymmärtää avoimia lähdemalleja
  • Ymmärtää avoimien lähdemallien käytön hyödyt
  • Tutkia Hugging Facen ja Azure AI Studion tarjoamia avoimia malleja

Mitä ovat avoimet lähdemallit?

Avoimen lähdekoodin ohjelmistoilla on ollut keskeinen rooli teknologian kehityksessä eri aloilla. Open Source Initiative (OSI) on määritellyt 10 kriteeriä ohjelmistolle, jotta se voidaan luokitella avoimeksi lähdekoodiksi. Lähdekoodin on oltava avoimesti jaettu OSI:n hyväksymän lisenssin alaisena.

Vaikka LLM-mallien kehittäminen sisältää samankaltaisia elementtejä kuin ohjelmistojen kehittäminen, prosessi ei ole täysin sama. Tämä on herättänyt paljon keskustelua yhteisössä siitä, mitä avoimen lähdekoodin määritelmä tarkoittaa LLM-mallien yhteydessä. Jotta malli vastaisi perinteistä avoimen lähdekoodin määritelmää, seuraavien tietojen tulisi olla julkisesti saatavilla:

  • Mallin koulutuksessa käytetyt tietoaineistot.
  • Täydet mallipainot osana koulutusta.
  • Arviointikoodi.
  • Hienosäätökoodi.
  • Täydet mallipainot ja koulutusmittarit.

Tällä hetkellä vain harvat mallit täyttävät nämä kriteerit. OLMo-malli, jonka on luonut Allen Institute for Artificial Intelligence (AllenAI), kuuluu tähän kategoriaan.

Tässä oppitunnissa viittaamme malleihin "avoimina malleina", koska ne eivät välttämättä täytä yllä olevia kriteerejä kirjoitushetkellä.

Avoimien mallien hyödyt

Erittäin muokattavissa - Koska avoimet mallit julkaistaan yksityiskohtaisilla koulutustiedoilla, tutkijat ja kehittäjät voivat muokata mallin sisäisiä toimintoja. Tämä mahdollistaa erittäin erikoistuneiden mallien luomisen, jotka on hienosäädetty tiettyyn tehtävään tai tutkimusalueeseen. Esimerkkejä tästä ovat koodin generointi, matemaattiset operaatiot ja biologia.

Kustannukset - Näiden mallien käyttö- ja käyttöönottohinta per token on alhaisempi kuin suljettujen mallien. Generatiivisten tekoälysovellusten rakentamisessa kannattaa tarkastella suorituskyvyn ja hinnan suhdetta mallien käytössä omassa käyttötapauksessa.

Mallin kustannukset
Lähde: Artificial Analysis

Joustavuus - Avoimien mallien kanssa työskentely mahdollistaa joustavuuden eri mallien käytössä tai niiden yhdistämisessä. Esimerkkinä tästä on HuggingChat Assistants, jossa käyttäjä voi valita käytettävän mallin suoraan käyttöliittymässä:

Valitse malli

Erilaisten avointen mallien tutkiminen

Llama 2

LLama2, jonka Meta on kehittänyt, on avoin malli, joka on optimoitu keskustelupohjaisiin sovelluksiin. Tämä johtuu sen hienosäätömenetelmästä, joka sisälsi suuren määrän dialogia ja ihmisten antamaa palautetta. Tämän menetelmän ansiosta malli tuottaa enemmän ihmisten odotuksia vastaavia tuloksia, mikä parantaa käyttäjäkokemusta.

Joistakin Llama-mallin hienosäädetyistä versioista esimerkkejä ovat Japanese Llama, joka on erikoistunut japanin kieleen, ja Llama Pro, joka on parannettu versio perusmallista.

Mistral

Mistral on avoin malli, joka keskittyy korkeaan suorituskykyyn ja tehokkuuteen. Se käyttää Mixture-of-Experts-lähestymistapaa, joka yhdistää joukon erikoistuneita asiantuntijamalleja yhdeksi järjestelmäksi, jossa syötteen mukaan valitaan käytettävät mallit. Tämä tekee laskennasta tehokkaampaa, koska mallit käsittelevät vain syötteitä, joihin ne ovat erikoistuneet.

Joistakin Mistral-mallin hienosäädetyistä versioista esimerkkejä ovat BioMistral, joka keskittyy lääketieteelliseen alaan, ja OpenMath Mistral, joka suorittaa matemaattisia laskutoimituksia.

Falcon

Falcon on LLM, jonka on luonut Technology Innovation Institute (TII). Falcon-40B on koulutettu 40 miljardilla parametrilla, ja sen on osoitettu suoriutuvan paremmin kuin GPT-3 pienemmällä laskentabudjetilla. Tämä johtuu sen käyttämästä FlashAttention-algoritmista ja monikyselyhuomiosta, jotka vähentävät muistivaatimuksia inferenssiaikana. Tämän lyhentyneen inferenssiajan ansiosta Falcon-40B soveltuu hyvin keskustelusovelluksiin.

Joistakin Falcon-mallin hienosäädetyistä versioista esimerkkejä ovat OpenAssistant, avointen mallien pohjalta rakennettu assistentti, ja GPT4ALL, joka tarjoaa paremman suorituskyvyn kuin perusmalli.

Kuinka valita

Avoimen mallin valintaan ei ole yhtä oikeaa vastausta. Hyvä lähtökohta on käyttää Azure AI Studion tehtäväkohtaisen suodatuksen ominaisuutta. Tämä auttaa ymmärtämään, millaisiin tehtäviin malli on koulutettu. Hugging Face ylläpitää myös LLM Leaderboardia, joka näyttää parhaiten suoriutuvat mallit tiettyjen mittareiden perusteella.

Kun haluat vertailla LLM-malleja eri tyyppien välillä, Artificial Analysis on toinen erinomainen resurssi:

Mallin laatu
Lähde: Artificial Analysis

Jos työskentelet tietyn käyttötapauksen parissa, hienosäädettyjen versioiden etsiminen, jotka keskittyvät samaan alueeseen, voi olla tehokasta. Useiden avointen mallien kokeileminen ja niiden suorituskyvyn arviointi omien ja käyttäjiesi odotusten mukaan on myös hyvä käytäntö.

Seuraavat askeleet

Avoimien mallien parasta puolta on, että niiden kanssa voi aloittaa työskentelyn melko nopeasti. Tutustu Azure AI Foundry Model Catalogiin, joka sisältää erityisen Hugging Face -kokoelman näistä malleista, joita käsittelimme tässä.

Oppiminen ei lopu tähän, jatka matkaasi

Tämän oppitunnin jälkeen tutustu Generative AI Learning -kokoelmaamme jatkaaksesi generatiivisen tekoälyn tietämyksesi kehittämistä!


Vastuuvapauslauseke:
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäinen asiakirja sen alkuperäisellä kielellä tulisi pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa väärinkäsityksistä tai virhetulkinnoista, jotka johtuvat tämän käännöksen käytöstä.