Świat otwartych modeli LLM jest ekscytujący i nieustannie się rozwija. Ta lekcja ma na celu szczegółowe przybliżenie tematu modeli open source. Jeśli szukasz informacji o tym, jak modele własnościowe wypadają na tle modeli open source, przejdź do lekcji "Exploring and Comparing Different LLMs". W tej lekcji poruszymy również temat fine-tuningu, ale bardziej szczegółowe wyjaśnienie znajdziesz w lekcji "Fine-Tuning LLMs".
- Poznanie modeli open source
- Zrozumienie korzyści płynących z pracy z modelami open source
- Zapoznanie się z otwartymi modelami dostępnymi na Hugging Face i w Azure AI Studio
Oprogramowanie open source odegrało kluczową rolę w rozwoju technologii w różnych dziedzinach. Open Source Initiative (OSI) zdefiniowało 10 kryteriów dla oprogramowania, które musi spełniać, aby zostać uznane za open source. Kod źródłowy musi być publicznie udostępniony na licencji zatwierdzonej przez OSI.
Chociaż rozwój LLM ma podobne elementy do tworzenia oprogramowania, proces ten nie jest dokładnie taki sam. To wywołało wiele dyskusji w społeczności na temat definicji open source w kontekście LLM. Aby model spełniał tradycyjną definicję open source, następujące informacje powinny być publicznie dostępne:
- Zbiory danych użyte do trenowania modelu.
- Pełne wagi modelu jako część treningu.
- Kod do ewaluacji.
- Kod do fine-tuningu.
- Pełne wagi modelu oraz metryki treningowe.
Obecnie istnieje tylko kilka modeli spełniających te kryteria. Jednym z nich jest model OLMo stworzony przez Allen Institute for Artificial Intelligence (AllenAI).
W tej lekcji będziemy odnosić się do modeli jako "otwarte modele", ponieważ mogą one nie spełniać powyższych kryteriów w momencie pisania.
Wysoka możliwość dostosowania – Ponieważ otwarte modele są udostępniane wraz ze szczegółowymi informacjami o treningu, badacze i deweloperzy mogą modyfikować ich wnętrze. Umożliwia to tworzenie wysoce wyspecjalizowanych modeli, dostrojonych do konkretnego zadania lub dziedziny. Przykładami są generowanie kodu, operacje matematyczne czy biologia.
Koszty – Koszt za token przy używaniu i wdrażaniu tych modeli jest niższy niż w przypadku modeli własnościowych. Budując aplikacje Generative AI, warto rozważyć stosunek wydajności do ceny w kontekście swojego zastosowania.
Elastyczność – Praca z otwartymi modelami pozwala na elastyczność w wyborze różnych modeli lub ich łączeniu. Przykładem są HuggingChat Assistants, gdzie użytkownik może wybrać model bezpośrednio w interfejsie użytkownika:
LLama2, opracowany przez Meta, to otwarty model zoptymalizowany pod kątem aplikacji czatowych. Wynika to z metody fine-tuningu, która obejmowała dużą ilość dialogów i opinii ludzi. Dzięki temu model generuje wyniki bardziej zgodne z oczekiwaniami użytkowników, co przekłada się na lepsze doświadczenie.
Przykładami wersji fine-tunowanych Llamy są Japanese Llama, specjalizująca się w języku japońskim, oraz Llama Pro, ulepszona wersja modelu bazowego.
Mistral to otwarty model skupiający się na wysokiej wydajności i efektywności. Wykorzystuje podejście Mixture-of-Experts, które łączy grupę wyspecjalizowanych modeli eksperckich w jeden system, gdzie w zależności od wejścia wybierane są odpowiednie modele. Dzięki temu obliczenia są bardziej efektywne, ponieważ modele zajmują się tylko tymi danymi, w których są specjalistami.
Przykładami wersji fine-tunowanych Mistrala są BioMistral, skoncentrowany na medycynie, oraz OpenMath Mistral, który wykonuje obliczenia matematyczne.
Falcon to LLM stworzony przez Technology Innovation Institute (TII). Falcon-40B został wytrenowany na 40 miliardach parametrów i wykazuje lepszą wydajność niż GPT-3 przy mniejszym budżecie obliczeniowym. Jest to możliwe dzięki zastosowaniu algorytmu FlashAttention oraz multiquery attention, które zmniejszają wymagania pamięciowe podczas inferencji. Dzięki temu Falcon-40B nadaje się do zastosowań czatowych.
Przykładami wersji fine-tunowanych Falcona są OpenAssistant, asystent oparty na otwartych modelach, oraz GPT4ALL, który oferuje wyższą wydajność niż model bazowy.
Nie ma jednej odpowiedzi na pytanie, jak wybrać otwarty model. Dobrym punktem startowym jest skorzystanie z funkcji filtrowania według zadania w Azure AI Studio. Pomoże to zrozumieć, do jakich typów zadań model był trenowany. Hugging Face prowadzi również LLM Leaderboard, który pokazuje najlepiej działające modele według określonych metryk.
Jeśli chcesz porównać LLM w różnych kategoriach, Artificial Analysis to kolejne świetne źródło:
Pracując nad konkretnym przypadkiem użycia, warto poszukać wersji fine-tunowanych skupionych na danej dziedzinie. Eksperymentowanie z kilkoma otwartymi modelami, aby sprawdzić, jak spełniają oczekiwania twoje i użytkowników, to również dobra praktyka.
Najlepsze w otwartych modelach jest to, że możesz zacząć z nimi pracować bardzo szybko. Sprawdź Azure AI Studio Model Catalog, który zawiera specjalną kolekcję modeli Hugging Face, o których tu mówiliśmy.
Po ukończeniu tej lekcji zapoznaj się z naszą kolekcją Generative AI Learning, aby dalej rozwijać swoją wiedzę o Generative AI!
Zastrzeżenie:
Niniejszy dokument został przetłumaczony przy użyciu usługi tłumaczenia AI Co-op Translator. Chociaż dokładamy starań, aby tłumaczenie było jak najbardziej precyzyjne, prosimy mieć na uwadze, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w języku źródłowym należy traktować jako źródło autorytatywne. W przypadku informacji o kluczowym znaczeniu zalecane jest skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.



