Skip to content

Latest commit

 

History

History
86 lines (49 loc) · 8.02 KB

File metadata and controls

86 lines (49 loc) · 8.02 KB

Open Source Models

Wprowadzenie

Świat otwartych modeli LLM jest ekscytujący i nieustannie się rozwija. Ta lekcja ma na celu dostarczenie dogłębnego spojrzenia na modele open source. Jeśli szukasz informacji o tym, jak modele własnościowe wypadają na tle modeli open source, przejdź do lekcji "Exploring and Comparing Different LLMs". Ta lekcja obejmie również temat fine-tuningu, ale bardziej szczegółowe wyjaśnienie znajdziesz w lekcji "Fine-Tuning LLMs".

Cele nauki

  • Zdobycie wiedzy na temat modeli open source
  • Zrozumienie korzyści płynących z pracy z modelami open source
  • Poznanie dostępnych modeli open na Hugging Face i w Azure AI Studio

Czym są modele Open Source?

Oprogramowanie open source odegrało kluczową rolę w rozwoju technologii w różnych dziedzinach. Inicjatywa Open Source (OSI) zdefiniowała 10 kryteriów dla oprogramowania, które musi spełniać, aby zostać zaklasyfikowane jako open source. Kod źródłowy musi być otwarcie udostępniony na licencji zatwierdzonej przez OSI.

Chociaż rozwój LLM ma podobne elementy do tworzenia oprogramowania, proces ten nie jest dokładnie taki sam. Wywołało to wiele dyskusji w społeczności na temat definicji open source w kontekście LLM. Aby model był zgodny z tradycyjną definicją open source, następujące informacje powinny być publicznie dostępne:

  • Zbiory danych użyte do trenowania modelu.
  • Pełne wagi modelu jako część treningu.
  • Kod ewaluacji.
  • Kod fine-tuningu.
  • Pełne wagi modelu i metryki treningowe.

Obecnie istnieje tylko kilka modeli spełniających te kryteria. Model OLMo stworzony przez Allen Institute for Artificial Intelligence (AllenAI) jest jednym z nich.

W tej lekcji będziemy odnosić się do modeli jako "otwarte modele", ponieważ mogą one nie spełniać powyższych kryteriów w momencie pisania.

Korzyści z otwartych modeli

Wysoka możliwość dostosowania – Ponieważ otwarte modele są udostępniane z szczegółowymi informacjami o treningu, badacze i deweloperzy mogą modyfikować ich wnętrze. Umożliwia to tworzenie wysoce wyspecjalizowanych modeli, które są dostrajane do konkretnego zadania lub dziedziny. Przykładami są generowanie kodu, operacje matematyczne i biologia.

Koszt – Koszt za token przy używaniu i wdrażaniu tych modeli jest niższy niż w przypadku modeli własnościowych. Budując aplikacje Generative AI, warto rozważyć stosunek wydajności do ceny przy pracy z tymi modelami w swoim przypadku użycia.

Model Cost Źródło: Artificial Analysis

Elastyczność – Praca z otwartymi modelami pozwala na elastyczność w zakresie używania różnych modeli lub ich łączenia. Przykładem są HuggingChat Assistants, gdzie użytkownik może wybrać model bezpośrednio w interfejsie użytkownika:

Choose Model

Przegląd różnych otwartych modeli

Llama 2

LLama2, opracowany przez Meta, to otwarty model zoptymalizowany do zastosowań czatowych. Wynika to z metody fine-tuningu, która obejmowała dużą ilość dialogów i opinii ludzkich. Dzięki temu model generuje wyniki bardziej zgodne z oczekiwaniami ludzi, co zapewnia lepsze doświadczenie użytkownika.

Przykładami wersji fine-tuned Llama są Japanese Llama, specjalizujący się w języku japońskim, oraz Llama Pro, ulepszona wersja modelu bazowego.

Mistral

Mistral to otwarty model z silnym naciskiem na wysoką wydajność i efektywność. Wykorzystuje podejście Mixture-of-Experts, które łączy grupę wyspecjalizowanych modeli ekspertów w jeden system, gdzie w zależności od wejścia wybierane są odpowiednie modele. Sprawia to, że obliczenia są bardziej efektywne, ponieważ modele zajmują się tylko tymi danymi, w których są specjalistami.

Przykładami wersji fine-tuned Mistral są BioMistral, skoncentrowany na medycynie, oraz OpenMath Mistral, który wykonuje obliczenia matematyczne.

Falcon

Falcon to LLM stworzony przez Technology Innovation Institute (TII). Falcon-40B został wytrenowany na 40 miliardach parametrów i wykazuje lepszą wydajność niż GPT-3 przy mniejszym budżecie obliczeniowym. Wynika to z zastosowania algorytmu FlashAttention oraz multiquery attention, które zmniejszają wymagania pamięciowe podczas inferencji. Dzięki temu Falcon-40B nadaje się do zastosowań czatowych.

Przykładami wersji fine-tuned Falcon są OpenAssistant, asystent zbudowany na otwartych modelach, oraz GPT4ALL, który oferuje wyższą wydajność niż model bazowy.

Jak wybrać

Nie ma jednej odpowiedzi na wybór otwartego modelu. Dobrym punktem startowym jest użycie funkcji filtrowania według zadania w Azure AI Studio. Pomoże to zrozumieć, do jakich typów zadań model był trenowany. Hugging Face prowadzi również ranking LLM, który pokazuje najlepiej działające modele według określonych metryk.

Przy porównywaniu LLM różnych typów, Artificial Analysis jest kolejnym świetnym źródłem:

Model Quality Źródło: Artificial Analysis

Pracując nad konkretnym przypadkiem użycia, warto poszukać wersji fine-tuned skoncentrowanych na tej samej dziedzinie. Eksperymentowanie z wieloma otwartymi modelami, aby zobaczyć, jak spełniają oczekiwania twoje i twoich użytkowników, to również dobra praktyka.

Kolejne kroki

Najlepszą częścią otwartych modeli jest to, że można zacząć z nimi pracować dość szybko. Sprawdź Azure AI Foundry Model Catalog, który zawiera specjalną kolekcję Hugging Face z modelami omówionymi tutaj.

Nauka nie kończy się tutaj, kontynuuj podróż

Po ukończeniu tej lekcji sprawdź naszą kolekcję Generative AI Learning, aby dalej rozwijać swoją wiedzę o Generative AI!


Zastrzeżenie:
Niniejszy dokument został przetłumaczony za pomocą usługi tłumaczenia AI Co-op Translator. Mimo że dokładamy starań, aby tłumaczenie było jak najbardziej precyzyjne, prosimy mieć na uwadze, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w języku źródłowym należy traktować jako źródło wiarygodne i autorytatywne. W przypadku informacji o kluczowym znaczeniu zalecane jest skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.