Świat otwartych modeli LLM jest ekscytujący i nieustannie się rozwija. Celem tej lekcji jest szczegółowe zapoznanie się z modelami open source. Jeśli szukasz informacji na temat porównania modeli własnościowych z modelami open source, przejdź do lekcji "Eksploracja i porównanie różnych LLM". W tej lekcji omówimy również temat dostrajania modeli, ale bardziej szczegółowe wyjaśnienie znajdziesz w lekcji "Dostrajanie LLM".
- Zrozumienie modeli open source
- Poznanie korzyści wynikających z pracy z modelami open source
- Eksploracja dostępnych modeli open source na platformach Hugging Face i Azure AI Studio
Oprogramowanie open source odegrało kluczową rolę w rozwoju technologii w różnych dziedzinach. Open Source Initiative (OSI) zdefiniowała 10 kryteriów dla oprogramowania, aby mogło być uznane za open source. Kod źródłowy musi być otwarcie udostępniony na licencji zatwierdzonej przez OSI.
Chociaż rozwój LLM ma podobne elementy do tworzenia oprogramowania, proces ten nie jest dokładnie taki sam. W społeczności toczy się wiele dyskusji na temat definicji open source w kontekście LLM. Aby model był zgodny z tradycyjną definicją open source, następujące informacje powinny być publicznie dostępne:
- Zbiory danych użyte do trenowania modelu.
- Pełne wagi modelu jako część treningu.
- Kod oceny.
- Kod dostrajania.
- Pełne wagi modelu i metryki treningowe.
Obecnie istnieje tylko kilka modeli, które spełniają te kryteria. Model OLMo stworzony przez Allen Institute for Artificial Intelligence (AllenAI) jest jednym z nich.
W tej lekcji będziemy odnosić się do modeli jako "otwarte modele", ponieważ mogą nie spełniać powyższych kryteriów w momencie pisania.
Wysoka personalizacja - Ponieważ otwarte modele są udostępniane z szczegółowymi informacjami o treningu, badacze i programiści mogą modyfikować wewnętrzne elementy modelu. Umożliwia to tworzenie wysoko wyspecjalizowanych modeli dostrojonych do konkretnego zadania lub dziedziny. Przykłady obejmują generowanie kodu, operacje matematyczne i biologię.
Koszt - Koszt na token za użycie i wdrożenie tych modeli jest niższy niż w przypadku modeli własnościowych. Przy budowie aplikacji generatywnej AI warto rozważyć wydajność w stosunku do ceny w kontekście konkretnego zastosowania.
Elastyczność - Praca z otwartymi modelami pozwala na elastyczność w korzystaniu z różnych modeli lub ich łączeniu. Przykładem jest HuggingChat Assistants, gdzie użytkownik może wybrać model używany bezpośrednio w interfejsie użytkownika:
LLama2, opracowany przez Meta, to otwarty model zoptymalizowany pod kątem aplikacji opartych na czacie. Jest to możliwe dzięki metodzie dostrajania, która obejmowała dużą ilość dialogów i opinii ludzkich. Dzięki tej metodzie model generuje wyniki bardziej zgodne z oczekiwaniami użytkowników, co zapewnia lepsze doświadczenie.
Przykłady dostrojonych wersji Llama to Japanese Llama, specjalizujący się w języku japońskim, oraz Llama Pro, ulepszona wersja modelu bazowego.
Mistral to otwarty model skoncentrowany na wysokiej wydajności i efektywności. Wykorzystuje podejście Mixture-of-Experts, które łączy grupę wyspecjalizowanych modeli ekspertów w jeden system, gdzie w zależności od wejścia wybierane są odpowiednie modele. Dzięki temu obliczenia są bardziej efektywne, ponieważ modele zajmują się tylko tymi danymi wejściowymi, w których się specjalizują.
Przykłady dostrojonych wersji Mistral to BioMistral, skoncentrowany na dziedzinie medycyny, oraz OpenMath Mistral, który wykonuje obliczenia matematyczne.
Falcon to LLM stworzony przez Technology Innovation Institute (TII). Falcon-40B został wytrenowany na 40 miliardach parametrów, co wykazało, że działa lepiej niż GPT-3 przy mniejszym budżecie obliczeniowym. Jest to możliwe dzięki zastosowaniu algorytmu FlashAttention i wielozapytaniowej uwagi, które pozwalają na zmniejszenie wymagań pamięciowych podczas czasu wnioskowania. Dzięki skróconemu czasowi wnioskowania Falcon-40B nadaje się do aplikacji opartych na czacie.
Przykłady dostrojonych wersji Falcon to OpenAssistant, asystent oparty na otwartych modelach, oraz GPT4ALL, który oferuje wyższą wydajność niż model bazowy.
Nie ma jednej odpowiedzi na pytanie, jak wybrać otwarty model. Dobrym punktem wyjścia jest skorzystanie z funkcji filtrowania według zadania w Azure AI Studio. Pomoże to zrozumieć, do jakich zadań model został wytrenowany. Hugging Face prowadzi również LLM Leaderboard, który pokazuje najlepiej działające modele na podstawie określonych metryk.
Jeśli chcesz porównać LLM w różnych typach, Artificial Analysis to kolejne świetne źródło:
Jeśli pracujesz nad konkretnym przypadkiem użycia, skuteczne może być wyszukiwanie dostrojonych wersji skoncentrowanych na tej samej dziedzinie. Eksperymentowanie z wieloma otwartymi modelami, aby zobaczyć, jak sprawdzają się w Twoim przypadku i spełniają oczekiwania użytkowników, to również dobra praktyka.
Najlepsze w otwartych modelach jest to, że można zacząć z nimi pracować bardzo szybko. Sprawdź Azure AI Foundry Model Catalog, który zawiera specjalną kolekcję Hugging Face z modelami omówionymi w tej lekcji.
Po ukończeniu tej lekcji zapoznaj się z naszą kolekcją nauki o generatywnej AI, aby dalej rozwijać swoją wiedzę o generatywnej AI!
Zastrzeżenie:
Ten dokument został przetłumaczony za pomocą usługi tłumaczenia AI Co-op Translator. Chociaż staramy się zapewnić dokładność, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za źródło autorytatywne. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.



