Avoimen lähdekoodin LLM-maailma on jännittävä ja jatkuvasti kehittyvä. Tämän oppitunnin tavoitteena on tarjota syvällinen katsaus avoimen lähdekoodin malleihin. Jos etsit tietoa siitä, miten omat mallit vertautuvat avoimen lähdekoodin malleihin, siirry oppituntiin "Erilaisten LLM-mallien tutkiminen ja vertailu". Tämä oppitunti käsittelee myös hienosäätöä, mutta tarkempi selitys löytyy oppitunnista "LLM-mallien hienosäätö".
- Ymmärtää avoimen lähdekoodin mallit
- Ymmärtää avoimen lähdekoodin mallien kanssa työskentelyn hyödyt
- Tutkia Hugging Facen ja Azure AI Studion avoimia malleja
Avoimen lähdekoodin ohjelmistoilla on ollut keskeinen rooli teknologian kasvussa eri aloilla. Open Source Initiative (OSI) on määritellyt 10 kriteeriä ohjelmistolle, jotta se voidaan luokitella avoimeksi lähdekoodiksi. Lähdekoodin on oltava avoimesti jaettu OSI:n hyväksymän lisenssin alla.
Vaikka LLM-mallien kehittäminen sisältää samankaltaisia elementtejä kuin ohjelmistojen kehittäminen, prosessi ei ole täysin sama. Tämä on herättänyt paljon keskustelua yhteisössä avoimen lähdekoodin määritelmästä LLM-mallien kontekstissa. Jotta malli vastaisi perinteistä avoimen lähdekoodin määritelmää, seuraavat tiedot tulisi olla julkisesti saatavilla:
- Datalähteet, joita käytetään mallin kouluttamiseen.
- Täydet mallin painot osana koulutusta.
- Arviointikoodi.
- Hienosäätökoodi.
- Täydet mallin painot ja koulutusmetriikat.
Tällä hetkellä vain muutama malli täyttää nämä kriteerit. OLMo-malli, jonka on luonut Allen Institute for Artificial Intelligence (AllenAI) kuuluu tähän kategoriaan.
Tässä oppitunnissa viittaamme malleihin "avoimina malleina", koska ne eivät välttämättä täytä yllä olevia kriteerejä kirjoitushetkellä.
Erittäin muokattavissa - Koska avoimet mallit julkaistaan yksityiskohtaisten koulutustietojen kanssa, tutkijat ja kehittäjät voivat muokata mallin sisäistä rakennetta. Tämä mahdollistaa erittäin erikoistuneiden mallien luomisen, jotka on hienosäädetty tiettyyn tehtävään tai tutkimusalueeseen. Joitakin esimerkkejä tästä ovat koodin generointi, matemaattiset operaatiot ja biologia.
Kustannukset - Näiden mallien käyttö- ja käyttöönottohinta per token on alhaisempi kuin omien mallien. Generatiivisten AI-sovellusten rakentamisessa kannattaa tarkastella suorituskykyä suhteessa hintaan näiden mallien kanssa työskentelyn yhteydessä.
Joustavuus - Avoimien mallien kanssa työskentely mahdollistaa joustavuuden eri mallien käyttämisessä tai niiden yhdistämisessä. Esimerkkinä tästä on HuggingChat Assistants, jossa käyttäjä voi valita käytettävän mallin suoraan käyttöliittymässä:
LLama2, jonka on kehittänyt Meta, on avoin malli, joka on optimoitu keskustelupohjaisiin sovelluksiin. Tämä johtuu sen hienosäätömenetelmästä, joka sisälsi suuren määrän dialogia ja ihmisten palautetta. Tämän menetelmän avulla malli tuottaa enemmän tuloksia, jotka vastaavat ihmisten odotuksia, mikä tarjoaa paremman käyttäjäkokemuksen.
Joitakin hienosäädettyjä versioita Llama-mallista ovat Japanese Llama, joka erikoistuu japaninkieleen ja Llama Pro, joka on parannettu versio perusmallista.
Mistral on avoin malli, joka keskittyy korkeaan suorituskykyyn ja tehokkuuteen. Se käyttää asiantuntijamallien yhdistelmää, joka yhdistää joukon erikoistuneita asiantuntijamalleja yhdeksi järjestelmäksi, jossa tiettyjen syötteiden perusteella valitaan käytettävät mallit. Tämä tekee laskennasta tehokkaampaa, koska mallit käsittelevät vain niitä syötteitä, joihin ne ovat erikoistuneet.
Joitakin hienosäädettyjä versioita Mistral-mallista ovat BioMistral, joka keskittyy lääketieteelliseen alaan ja OpenMath Mistral, joka suorittaa matemaattista laskentaa.
Falcon on LLM, jonka on luonut Technology Innovation Institute (TII). Falcon-40B koulutettiin 40 miljardilla parametrilla, mikä on osoittautunut paremmaksi kuin GPT-3 pienemmällä laskentabudjetilla. Tämä johtuu sen käyttämästä FlashAttention-algoritmista ja monikyselyhuomiosta, jotka mahdollistavat muistivaatimusten vähentämisen inferenssiaikana. Tämän vähentyneen inferenssiajan ansiosta Falcon-40B soveltuu keskustelusovelluksiin.
Joitakin hienosäädettyjä versioita Falcon-mallista ovat OpenAssistant, avointen mallien avulla rakennettu assistentti ja GPT4ALL, joka tarjoaa korkeampaa suorituskykyä kuin perusmalli.
Avoimen mallin valintaan ei ole yhtä oikeaa vastausta. Hyvä paikka aloittaa on käyttää Azure AI Studion suodatusominaisuutta tehtävän mukaan. Tämä auttaa ymmärtämään, millaisiin tehtäviin malli on koulutettu. Hugging Face ylläpitää myös LLM Leaderboardia, joka näyttää parhaiten suoriutuvat mallit tiettyjen mittareiden perusteella.
Kun halutaan verrata LLM-malleja eri tyyppien välillä, Artificial Analysis on toinen erinomainen resurssi:
Jos työskentelet tietyn käyttötapauksen parissa, hienosäädettyjen versioiden etsiminen, jotka keskittyvät samaan alueeseen, voi olla tehokasta. Useiden avointen mallien kokeileminen ja niiden suorituskyvyn tarkastelu omien ja käyttäjiesi odotusten mukaan on myös hyvä käytäntö.
Avoimien mallien paras puoli on, että voit aloittaa niiden parissa työskentelyn melko nopeasti. Tutustu Azure AI Studion mallikatalogiin, joka sisältää erityisen Hugging Face -kokoelman näistä malleista, joita käsittelimme täällä.
Kun olet suorittanut tämän oppitunnin, tutustu Generative AI Learning -kokoelmaamme jatkaaksesi Generative AI -tietämyksesi kehittämistä!
Vastuuvapauslauseke:
Tämä asiakirja on käännetty käyttäen tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulisi pitää auktoritatiivisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa tämän käännöksen käytöstä johtuvista väärinkäsityksistä tai virhetulkinnoista.



