Die Welt der Open-Source-LLMs ist spannend und entwickelt sich ständig weiter. Diese Lektion bietet einen tiefgehenden Einblick in Open-Source-Modelle. Wenn Sie Informationen darüber suchen, wie sich proprietäre Modelle im Vergleich zu Open-Source-Modellen verhalten, gehen Sie zur "Exploring and Comparing Different LLMs"-Lektion. Diese Lektion behandelt auch das Thema Fine-Tuning, eine ausführlichere Erklärung finden Sie jedoch in der "Fine-Tuning LLMs"-Lektion.
- Verständnis für Open-Source-Modelle gewinnen
- Die Vorteile der Arbeit mit Open-Source-Modellen verstehen
- Die auf Hugging Face und im Azure AI Studio verfügbaren Open-Modelle erkunden
Open-Source-Software hat eine entscheidende Rolle beim Wachstum der Technologie in verschiedenen Bereichen gespielt. Die Open Source Initiative (OSI) hat 10 Kriterien für Software definiert, damit diese als Open Source eingestuft werden kann. Der Quellcode muss unter einer von der OSI genehmigten Lizenz offen zugänglich sein.
Obwohl die Entwicklung von LLMs Ähnlichkeiten mit der Softwareentwicklung aufweist, ist der Prozess nicht identisch. Dies hat in der Community zu vielen Diskussionen über die Definition von Open Source im Kontext von LLMs geführt. Damit ein Modell der traditionellen Definition von Open Source entspricht, sollten folgende Informationen öffentlich zugänglich sein:
- Datensätze, die zum Training des Modells verwendet wurden
- Vollständige Modellgewichte als Teil des Trainings
- Der Evaluierungscode
- Der Fine-Tuning-Code
- Vollständige Modellgewichte und Trainingsmetriken
Derzeit gibt es nur wenige Modelle, die diese Kriterien erfüllen. Das OLMo-Modell, erstellt vom Allen Institute for Artificial Intelligence (AllenAI), ist eines, das in diese Kategorie fällt.
Für diese Lektion werden wir die Modelle künftig als „Open Models“ bezeichnen, da sie zum Zeitpunkt der Erstellung möglicherweise nicht alle oben genannten Kriterien erfüllen.
Hohe Anpassbarkeit – Da Open Models mit detaillierten Trainingsinformationen veröffentlicht werden, können Forscher und Entwickler die internen Strukturen des Modells verändern. So lassen sich hochspezialisierte Modelle erstellen, die für eine bestimmte Aufgabe oder ein Fachgebiet feinabgestimmt sind. Beispiele hierfür sind Code-Generierung, mathematische Operationen und Biologie.
Kosten – Die Kosten pro Token für die Nutzung und den Einsatz dieser Modelle sind niedriger als bei proprietären Modellen. Beim Aufbau von Generative-AI-Anwendungen sollte man daher Leistung und Preis im Hinblick auf den eigenen Anwendungsfall vergleichen.
Flexibilität – Die Arbeit mit Open Models ermöglicht es, flexibel verschiedene Modelle zu verwenden oder zu kombinieren. Ein Beispiel dafür sind die HuggingChat Assistants, bei denen Nutzer das verwendete Modell direkt in der Benutzeroberfläche auswählen können:
LLama2, entwickelt von Meta, ist ein Open Model, das für chatbasierte Anwendungen optimiert wurde. Dies liegt an der Fine-Tuning-Methode, die eine große Menge an Dialogen und menschlichem Feedback einbezog. Dadurch liefert das Modell Ergebnisse, die stärker an menschlichen Erwartungen ausgerichtet sind, was die Nutzererfahrung verbessert.
Einige Beispiele für feinabgestimmte Versionen von Llama sind Japanese Llama, spezialisiert auf Japanisch, und Llama Pro, eine erweiterte Version des Basismodells.
Mistral ist ein Open Model mit starkem Fokus auf hohe Leistung und Effizienz. Es verwendet den Mixture-of-Experts-Ansatz, bei dem eine Gruppe spezialisierter Expertenmodelle zu einem System kombiniert wird, bei dem je nach Eingabe bestimmte Modelle ausgewählt werden. Das macht die Berechnung effektiver, da Modelle nur die Eingaben bearbeiten, auf die sie spezialisiert sind.
Einige Beispiele für feinabgestimmte Versionen von Mistral sind BioMistral, das sich auf den medizinischen Bereich konzentriert, und OpenMath Mistral, das mathematische Berechnungen durchführt.
Falcon ist ein LLM, das vom Technology Innovation Institute (TII) entwickelt wurde. Der Falcon-40B wurde mit 40 Milliarden Parametern trainiert und zeigt eine bessere Leistung als GPT-3 bei geringerem Rechenaufwand. Dies ist auf den Einsatz des FlashAttention-Algorithmus und Multiquery-Attention zurückzuführen, die den Speicherbedarf zur Inferenzzeit reduzieren. Durch die verkürzte Inferenzzeit eignet sich der Falcon-40B besonders für Chat-Anwendungen.
Einige Beispiele für feinabgestimmte Versionen von Falcon sind der OpenAssistant, ein auf Open Models basierender Assistent, und GPT4ALL, der eine höhere Leistung als das Basismodell bietet.
Es gibt keine allgemeingültige Antwort darauf, wie man ein Open Model auswählt. Ein guter Startpunkt ist die Filterfunktion nach Aufgaben im Azure AI Studio. Diese hilft dabei zu verstehen, für welche Aufgaben das Modell trainiert wurde. Hugging Face pflegt außerdem ein LLM-Leaderboard, das die leistungsstärksten Modelle anhand bestimmter Metriken zeigt.
Wenn Sie LLMs verschiedener Typen vergleichen möchten, ist Artificial Analysis eine weitere hervorragende Ressource:
Wenn Sie an einem spezifischen Anwendungsfall arbeiten, kann es sinnvoll sein, nach feinabgestimmten Versionen zu suchen, die sich auf denselben Bereich konzentrieren. Es ist auch eine gute Praxis, mehrere Open Models auszuprobieren, um zu sehen, wie sie im Hinblick auf Ihre und die Erwartungen Ihrer Nutzer abschneiden.
Das Beste an Open Models ist, dass Sie schnell mit der Arbeit beginnen können. Schauen Sie sich den Azure AI Studio Model Catalog an, der eine spezielle Hugging Face-Sammlung mit den hier besprochenen Modellen enthält.
Nach Abschluss dieser Lektion werfen Sie einen Blick auf unsere Generative AI Learning collection, um Ihr Wissen im Bereich Generative AI weiter auszubauen!
Haftungsausschluss:
Dieses Dokument wurde mit dem KI-Übersetzungsdienst Co-op Translator übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner Ursprungssprache gilt als maßgebliche Quelle. Für wichtige Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die aus der Nutzung dieser Übersetzung entstehen.



