Die Welt der Open-Source-LLMs ist spannend und entwickelt sich ständig weiter. Diese Lektion zielt darauf ab, einen tiefgehenden Einblick in Open-Source-Modelle zu geben. Wenn Sie Informationen darüber suchen, wie proprietäre Modelle im Vergleich zu Open-Source-Modellen abschneiden, gehen Sie zur "Exploring and Comparing Different LLMs"-Lektion. Diese Lektion behandelt auch das Thema Fine-Tuning, eine ausführlichere Erklärung finden Sie jedoch in der "Fine-Tuning LLMs"-Lektion.
- Verständnis für Open-Source-Modelle gewinnen
- Die Vorteile der Arbeit mit Open-Source-Modellen verstehen
- Die auf Hugging Face und im Azure AI Studio verfügbaren Open-Modelle erkunden
Open-Source-Software hat eine entscheidende Rolle beim Wachstum der Technologie in verschiedenen Bereichen gespielt. Die Open Source Initiative (OSI) hat 10 Kriterien für Software definiert, um als Open Source klassifiziert zu werden. Der Quellcode muss unter einer von der OSI genehmigten Lizenz offen geteilt werden.
Obwohl die Entwicklung von LLMs ähnliche Elemente wie die Softwareentwicklung aufweist, ist der Prozess nicht genau derselbe. Dies hat in der Community zu vielen Diskussionen über die Definition von Open Source im Kontext von LLMs geführt. Damit ein Modell mit der traditionellen Definition von Open Source übereinstimmt, sollten folgende Informationen öffentlich verfügbar sein:
- Datensätze, die zum Trainieren des Modells verwendet wurden.
- Vollständige Modellgewichte als Teil des Trainings.
- Der Evaluierungscode.
- Der Fine-Tuning-Code.
- Vollständige Modellgewichte und Trainingsmetriken.
Derzeit gibt es nur wenige Modelle, die diese Kriterien erfüllen. Das OLMo-Modell, erstellt vom Allen Institute for Artificial Intelligence (AllenAI), ist eines, das in diese Kategorie passt.
Für diese Lektion werden wir die Modelle im Folgenden als "Open Models" bezeichnen, da sie zum Zeitpunkt des Schreibens möglicherweise nicht alle oben genannten Kriterien erfüllen.
Hochgradig anpassbar – Da Open Models mit detaillierten Trainingsinformationen veröffentlicht werden, können Forscher und Entwickler die internen Strukturen des Modells modifizieren. Dies ermöglicht die Erstellung hochspezialisierter Modelle, die für eine bestimmte Aufgabe oder ein bestimmtes Fachgebiet feinabgestimmt sind. Beispiele hierfür sind Codegenerierung, mathematische Operationen und Biologie.
Kosten – Die Kosten pro Token für die Nutzung und Bereitstellung dieser Modelle sind niedriger als bei proprietären Modellen. Beim Aufbau von Generative-AI-Anwendungen sollte man die Leistung im Verhältnis zum Preis bei der Arbeit mit diesen Modellen für den eigenen Anwendungsfall berücksichtigen.
Flexibilität – Die Arbeit mit Open Models ermöglicht Flexibilität bei der Verwendung verschiedener Modelle oder deren Kombination. Ein Beispiel hierfür sind die HuggingChat Assistants, bei denen ein Nutzer das verwendete Modell direkt in der Benutzeroberfläche auswählen kann:
LLama2, entwickelt von Meta, ist ein Open Model, das für chatbasierte Anwendungen optimiert ist. Dies liegt an seiner Fine-Tuning-Methode, die eine große Menge an Dialogen und menschlichem Feedback einbezog. Mit dieser Methode liefert das Modell Ergebnisse, die stärker an menschlichen Erwartungen ausgerichtet sind, was eine bessere Benutzererfahrung bietet.
Einige Beispiele für feinabgestimmte Versionen von Llama sind Japanese Llama, das sich auf Japanisch spezialisiert hat, und Llama Pro, eine verbesserte Version des Basismodells.
Mistral ist ein Open Model mit starkem Fokus auf hohe Leistung und Effizienz. Es verwendet den Mixture-of-Experts-Ansatz, der eine Gruppe spezialisierter Expertenmodelle zu einem System kombiniert, bei dem je nach Eingabe bestimmte Modelle ausgewählt werden. Dies macht die Berechnung effektiver, da Modelle nur die Eingaben bearbeiten, auf die sie spezialisiert sind.
Einige Beispiele für feinabgestimmte Versionen von Mistral sind BioMistral, das sich auf den medizinischen Bereich konzentriert, und OpenMath Mistral, das mathematische Berechnungen durchführt.
Falcon ist ein LLM, das vom Technology Innovation Institute (TII) erstellt wurde. Der Falcon-40B wurde mit 40 Milliarden Parametern trainiert und hat gezeigt, dass er bei geringerem Rechenaufwand besser als GPT-3 abschneidet. Dies ist auf die Verwendung des FlashAttention-Algorithmus und der Multiquery-Attention zurückzuführen, die den Speicherbedarf zur Inferenzzeit reduzieren. Mit dieser verkürzten Inferenzzeit eignet sich der Falcon-40B für Chat-Anwendungen.
Einige Beispiele für feinabgestimmte Versionen von Falcon sind der OpenAssistant, ein auf Open Models basierender Assistent, und GPT4ALL, der eine höhere Leistung als das Basismodell bietet.
Es gibt keine eindeutige Antwort darauf, wie man ein Open Model auswählt. Ein guter Ausgangspunkt ist die Filterfunktion nach Aufgaben im Azure AI Studio. Dies hilft Ihnen zu verstehen, für welche Arten von Aufgaben das Modell trainiert wurde. Hugging Face pflegt außerdem ein LLM-Leaderboard, das die besten Modelle basierend auf bestimmten Metriken zeigt.
Wenn Sie LLMs verschiedener Typen vergleichen möchten, ist Artificial Analysis eine weitere großartige Ressource:
Wenn Sie an einem spezifischen Anwendungsfall arbeiten, kann die Suche nach feinabgestimmten Versionen, die sich auf denselben Bereich konzentrieren, effektiv sein. Das Experimentieren mit mehreren Open Models, um zu sehen, wie sie Ihren und den Erwartungen Ihrer Nutzer entsprechen, ist ebenfalls eine gute Praxis.
Das Beste an Open Models ist, dass Sie ziemlich schnell mit der Arbeit beginnen können. Schauen Sie sich den Azure AI Foundry Model Catalog an, der eine spezielle Hugging Face-Sammlung mit den hier besprochenen Modellen enthält.
Nach Abschluss dieser Lektion sehen Sie sich unsere Generative AI Learning collection an, um Ihr Wissen über Generative AI weiter zu vertiefen!
Haftungsausschluss:
Dieses Dokument wurde mit dem KI-Übersetzungsdienst Co-op Translator übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner Ursprungssprache gilt als maßgebliche Quelle. Für wichtige Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die aus der Nutzung dieser Übersetzung entstehen.



