Atvirojo kodo LLM pasaulis yra įdomus ir nuolat besikeičiantis. Ši pamoka siekia išsamiai apžvelgti atvirojo kodo modelius. Jei ieškote informacijos apie tai, kaip patentuoti modeliai lyginami su atvirojo kodo modeliais, apsilankykite pamokoje "Skirtingų LLM tyrinėjimas ir palyginimas". Šioje pamokoje taip pat bus aptarta modelių pritaikymo tema, tačiau išsamesnį paaiškinimą rasite pamokoje "LLM pritaikymas".
- Suprasti atvirojo kodo modelius
- Suprasti atvirojo kodo modelių privalumus
- Tyrinėti atvirus modelius, prieinamus Hugging Face ir Azure AI Studio platformose
Atvirojo kodo programinė įranga atliko svarbų vaidmenį technologijų plėtroje įvairiose srityse. Atvirojo kodo iniciatyva (OSI) apibrėžė 10 kriterijų programinei įrangai, kad ji būtų klasifikuojama kaip atvirojo kodo. Programos kodas turi būti viešai dalijamas pagal OSI patvirtintą licenciją.
Nors LLM kūrimas turi panašumų su programinės įrangos kūrimu, procesas nėra visiškai toks pats. Dėl to bendruomenėje kyla daug diskusijų apie atvirojo kodo apibrėžimą LLM kontekste. Kad modelis atitiktų tradicinį atvirojo kodo apibrėžimą, turėtų būti viešai prieinama ši informacija:
- Duomenų rinkiniai, naudoti modelio mokymui.
- Pilni modelio svoriai kaip mokymo dalis.
- Vertinimo kodas.
- Pritaikymo kodas.
- Pilni modelio svoriai ir mokymo metrikos.
Šiuo metu yra tik keli modeliai, atitinkantys šiuos kriterijus. OLMo modelis, sukurtas Allen Institute for Artificial Intelligence (AllenAI) yra vienas iš jų.
Šioje pamokoje toliau modelius vadinsime "atvirais modeliais", nes jie gali neatitikti aukščiau nurodytų kriterijų šio teksto rašymo metu.
Labai pritaikomi - Kadangi atviri modeliai pateikiami su išsamia mokymo informacija, tyrėjai ir kūrėjai gali keisti modelio vidinę struktūrą. Tai leidžia kurti labai specializuotus modelius, pritaikytus konkrečiai užduočiai ar studijų sričiai. Kai kurie pavyzdžiai yra kodo generavimas, matematinės operacijos ir biologija.
Kaina - Kaina už vieną tokeną naudojant ir diegiant šiuos modelius yra mažesnė nei patentuotų modelių. Kuriant generatyviosios AI programas, verta įvertinti našumą ir kainą, dirbant su šiais modeliais pagal jūsų naudojimo atvejį.
Lankstumas - Darbas su atvirais modeliais leidžia būti lankstiems naudojant skirtingus modelius arba juos derinant. Pavyzdys yra HuggingChat Asistentai, kur vartotojas gali tiesiogiai vartotojo sąsajoje pasirinkti naudojamą modelį:
LLama2, sukurtas Meta, yra atviras modelis, optimizuotas pokalbių programoms. Tai pasiekta naudojant pritaikymo metodą, kuris apėmė didelį kiekį dialogų ir žmonių atsiliepimų. Šis metodas leidžia modeliui generuoti rezultatus, labiau atitinkančius žmonių lūkesčius, taip užtikrinant geresnę vartotojo patirtį.
Kai kurie pritaikyti Llama versijų pavyzdžiai yra Japanese Llama, kuris specializuojasi japonų kalboje, ir Llama Pro, kuris yra patobulinta bazinio modelio versija.
Mistral yra atviras modelis, orientuotas į aukštą našumą ir efektyvumą. Jis naudoja Mixture-of-Experts metodą, kuris sujungia grupę specializuotų ekspertų modelių į vieną sistemą, kurioje, priklausomai nuo įvesties, pasirenkami tam tikri modeliai. Tai daro skaičiavimus efektyvesnius, nes modeliai sprendžia tik tas įvestis, kuriose jie specializuojasi.
Kai kurie pritaikyti Mistral versijų pavyzdžiai yra BioMistral, kuris orientuotas į medicinos sritį, ir OpenMath Mistral, kuris atlieka matematinius skaičiavimus.
Falcon yra LLM, sukurtas Technology Innovation Institute (TII). Falcon-40B buvo apmokytas naudojant 40 milijardų parametrų, kurie parodė geresnį našumą nei GPT-3 su mažesniu skaičiavimo biudžetu. Tai pasiekta naudojant FlashAttention algoritmą ir multiquery attention, kurie leidžia sumažinti atminties poreikius prognozavimo metu. Dėl sumažinto prognozavimo laiko Falcon-40B yra tinkamas pokalbių programoms.
Kai kurie pritaikyti Falcon versijų pavyzdžiai yra OpenAssistant, asistentas, sukurtas remiantis atvirais modeliais, ir GPT4ALL, kuris užtikrina geresnį našumą nei bazinis modelis.
Nėra vieno teisingo atsakymo, kaip pasirinkti atvirą modelį. Geras pradžios taškas yra naudoti Azure AI Studio funkciją, leidžiančią filtruoti pagal užduotį. Tai padės suprasti, kokioms užduotims modelis buvo apmokytas. Hugging Face taip pat palaiko LLM lyderių lentelę, kurioje pateikiami geriausiai veikiantys modeliai pagal tam tikrus metrikos rodiklius.
Norint palyginti LLM skirtingų tipų modelius, Artificial Analysis yra dar vienas puikus šaltinis:
Jei dirbate su konkrečiu naudojimo atveju, efektyvu ieškoti pritaikytų versijų, orientuotų į tą pačią sritį. Eksperimentavimas su keliais atvirais modeliais, siekiant pamatyti, kaip jie veikia pagal jūsų ir jūsų vartotojų lūkesčius, yra dar viena gera praktika.
Geriausia atvirų modelių dalis yra ta, kad galite pradėti dirbti su jais gana greitai. Peržiūrėkite Azure AI Foundry Model Catalog, kuriame yra speciali Hugging Face kolekcija su šiais modeliais, kuriuos aptarėme čia.
Baigę šią pamoką, apsilankykite mūsų Generatyviosios AI mokymosi kolekcijoje, kad toliau gilintumėte savo žinias apie generatyviąją AI!
Atsakomybės apribojimas:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą Co-op Translator. Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar neteisingus aiškinimus, atsiradusius naudojant šį vertimą.



