A nyílt forráskódú LLM-ek világa izgalmas és folyamatosan fejlődik. Ez a lecke mélyreható betekintést nyújt a nyílt forráskódú modellekbe. Ha arra vagy kíváncsi, hogyan viszonyulnak a zárt forráskódú modellek a nyílt forráskódúakhoz, látogass el a "Különböző LLM-ek felfedezése és összehasonlítása" leckéhez. Ez a lecke a finomhangolás témáját is érinti, de részletesebb magyarázatot találsz a "LLM-ek finomhangolása" leckében.
- Megérteni a nyílt forráskódú modelleket
- Megismerni a nyílt forráskódú modellek használatának előnyeit
- Felfedezni a Hugging Face-en és az Azure AI Studioban elérhető nyílt modelleket
A nyílt forráskódú szoftverek kulcsszerepet játszottak a technológia fejlődésében számos területen. Az Open Source Initiative (OSI) 10 kritériumot határozott meg a szoftverek nyílt forráskódú besorolásához. A forráskódot nyíltan kell megosztani egy OSI által jóváhagyott licenc alatt.
Bár az LLM-ek fejlesztése hasonló elemeket tartalmaz, mint a szoftverfejlesztés, a folyamat nem teljesen azonos. Ez sok vitát váltott ki a közösségben arról, hogy mit jelent a nyílt forráskód az LLM-ek esetében. Ahhoz, hogy egy modell megfeleljen a hagyományos nyílt forráskódú definíciónak, a következő információknak nyilvánosan elérhetőnek kell lenniük:
- A modell betanításához használt adatkészletek.
- A teljes modell súlyai a tanítás részeként.
- Az értékelő kód.
- A finomhangoló kód.
- A teljes modell súlyai és a tanítási metrikák.
Jelenleg csak néhány modell felel meg ezeknek a kritériumoknak. Az Allen Institute for Artificial Intelligence (AllenAI) által készített OLMo modell például ilyen.
Ebben a leckében a modelleket a továbbiakban "nyílt modelleknek" nevezzük, mivel íráskori állapotukban nem feltétlenül felelnek meg a fenti kritériumoknak.
Nagyon testreszabhatóak – Mivel a nyílt modellek részletes tanítási információkkal érkeznek, a kutatók és fejlesztők módosíthatják a modell belső működését. Ez lehetővé teszi, hogy nagyon specializált modelleket hozzanak létre, amelyek egy adott feladatra vagy tudományterületre vannak finomhangolva. Ilyen például a kódgenerálás, matematikai műveletek vagy a biológia.
Költséghatékonyság – Ezeknek a modelleknek a tokenenkénti használati és üzemeltetési költsége alacsonyabb, mint a zárt forráskódú modelleké. Generatív AI alkalmazások fejlesztésekor érdemes figyelembe venni a teljesítmény és ár arányát az adott felhasználási esetben.
Rugalmasság – A nyílt modellekkel való munka lehetővé teszi, hogy rugalmasan válassz különböző modellek között vagy kombináld őket. Erre példa a HuggingChat Asszisztensek, ahol a felhasználó közvetlenül a felhasználói felületen választhatja ki a használt modellt:
A Meta által fejlesztett Llama 2 egy nyílt modell, amelyet kifejezetten csevegés alapú alkalmazásokhoz optimalizáltak. Ennek oka a finomhangolási módszere, amely nagy mennyiségű párbeszédet és emberi visszajelzést tartalmazott. Ezzel a módszerrel a modell olyan eredményeket produkál, amelyek jobban megfelelnek az emberi elvárásoknak, így jobb felhasználói élményt nyújt.
Néhány finomhangolt Llama változat például a Japanese Llama, amely a japán nyelvre specializálódott, és a Llama Pro, amely a bázismodell továbbfejlesztett változata.
A Mistral egy nyílt modell, amely nagy hangsúlyt fektet a magas teljesítményre és hatékonyságra. A Mixture-of-Experts megközelítést alkalmazza, amely egy csoport specializált szakértő modellből álló rendszert hoz létre, ahol a bemenettől függően bizonyos modelleket választanak ki használatra. Ez hatékonyabbá teszi a számítást, mivel a modellek csak azokra a bemenetekre fókuszálnak, amelyekben szakértők.
Néhány finomhangolt Mistral változat például a BioMistral, amely az orvosi területre fókuszál, és az OpenMath Mistral, amely matematikai számításokat végez.
A Falcon egy LLM, amelyet a Technology Innovation Institute (TII) fejlesztett. A Falcon-40B 40 milliárd paraméteren lett betanítva, és bizonyítottan jobb teljesítményt nyújt, mint a GPT-3, kevesebb számítási erőforrás felhasználásával. Ennek oka a FlashAttention algoritmus és a multiquery attention használata, amelyek csökkentik a memóriaigényt az inferencia során. A csökkentett inferenciaidő miatt a Falcon-40B jól használható csevegőalkalmazásokhoz.
Néhány finomhangolt Falcon változat például az OpenAssistant, egy nyílt modelleken alapuló asszisztens, és a GPT4ALL, amely jobb teljesítményt nyújt, mint az alapmodell.
Nincs egyetlen helyes válasz arra, hogyan válasszunk nyílt modellt. Jó kiindulópont lehet az Azure AI Studio feladat szerinti szűrő funkciója, amely segít megérteni, hogy a modell milyen típusú feladatokra lett betanítva. A Hugging Face emellett fenntart egy LLM ranglistát, amely bizonyos metrikák alapján mutatja a legjobban teljesítő modelleket.
Ha különböző típusú LLM-eket szeretnél összehasonlítani, az Artificial Analysis is remek forrás:
Ha egy konkrét feladatra dolgozol, érdemes olyan finomhangolt változatokat keresni, amelyek az adott területre fókuszálnak. Több nyílt modell kipróbálása és összehasonlítása a saját és a felhasználóid elvárásai szerint szintén jó gyakorlat.
A nyílt modellek legjobb része, hogy viszonylag gyorsan elkezdhetsz velük dolgozni. Nézd meg az Azure AI Studio Model Katalógust, amely tartalmaz egy speciális Hugging Face gyűjteményt ezekkel a modellekkel, amikről itt beszéltünk.
A lecke elvégzése után nézd meg a Generatív AI tanulási gyűjteményünket, hogy tovább fejleszd generatív AI ismereteidet!
Jogi nyilatkozat:
Ez a dokumentum az AI fordító szolgáltatás, a Co-op Translator segítségével készült. Bár a pontosságra törekszünk, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az anyanyelvén tekintendő hiteles forrásnak. Fontos információk esetén szakmai, emberi fordítást javaslunk. Nem vállalunk felelősséget a fordítás használatából eredő félreértésekért vagy téves értelmezésekért.



