Die Llama 3.2-Modelle von Meta sind jetzt auf watsonx verfügbar, darunter die multimodalen Modelle 11B und 90B

IBM kündigt die Verfügbarkeit mehrerer Llama 3.2-Modelle auf watsonx.ai an, IBMs Enterprise Studio für KI-Entwickler, im Anschluss an die Veröffentlichung der Llama 3.2-Sammlung vortrainierter und auf Anweisungen abgestimmter mehrsprachiger großer Sprachmodelle (LLMs) auf der MetaConnect heute Vormittag.

Vor allem istLlama 3.2 der erste Vorstoß von Meta in die multimodale KI: Die Version enthält zwei Modelle in den Größen 11B und 90B, die Bilder als Eingabe aufnehmen können. Die instruktionsoptimierten Llama 3.2 90B Vision- und 11B Vision-Modelle sind sofort in watsonx.ai über SaaS verfügbar.

In watsonx.ai sind auch die bisher kleinsten Llama-Modelle eingetroffen: zwei Texteingabe-, Textausgabe-LLMs in den Größen 1B und 3B. Alle Llama 3.2-Modelle unterstützen lange Kontextlängen (bis zu 128K Token) und sind für schnelle und effiziente Inferenz mit gruppierter Abfrageaufmerksamkeit optimiert. Meta gibt an, dass Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch offiziell unterstützt werden, weist aber darauf hin, dass Llama 3.2 für weitere Sprachen trainiert wurde und Entwickler die Llama 3.2-Modelle auch für diese weiteren Sprachen feinabstimmen können.

Diese neuesten Ergänzungen von Meta ergänzen die umfangreiche Bibliothek von Foundation Models, die in watsonx.ai® verfügbar sind, was der offenen, modellübergreifenden Strategie von IBM in Bezug auf generative KI entspricht.

„Indem wir unsere neuesten Llama 3.2-Modelle auf watsonx verfügbar machen, kann ein viel größerer Kreis von Unternehmen von diesen Innovationen profitieren und unsere neuesten Modelle problemlos, nach ihren eigenen Bedingungen und in Hybrid-Cloud-Umgebungen bereitstellen“, sagt Ahmad Al-Dahle, Head of GenAi bei Meta. „Wir bei Meta glauben, dass es unerlässlich ist, KI-Lösungen auf die spezifischen Bedürfnisse jedes Unternehmens zuzuschneiden und sie in die Lage zu versetzen, Llama-Lösungen einfach bereitzustellen. Unsere Partnerschaft mit IBM, einem Unternehmen, das unser Engagement für Offenheit, Sicherheit, Vertrauen und Transparenz teilt, ermöglicht uns genau das.“

Lesen Sie weiter, um mehr über die Llama 3.2-Kollektion zu erfahren, darunter neue multimodale Funktionen, neue Bereitstellung auf mobilen und anderen Edge-Geräten, aktualisierte Sicherheitsfunktionen und mehr.

Die ersten multimodalen Llama-Modelle

Im Gegensatz zu ihren ausschließlich textbasierten LLM-Vorgängern der Llama-Reihe haben Llama 3.2 11B und Llama 3.2 90B ihre Funktionen erweitert, um Bild-Ein- und Text-Aus-Anwendungsfälle wie Dokumenten-Verständnis, Interpretation von Diagrammen und Graphen sowie Bildunterschriften einzuschließen. Entwickler haben jetzt Zugang zu leistungsstarken visuellen Argumentationsmodellen, die an die fortschrittlichen Funktionen geschlossener Modelle heranreichen und gleichzeitig die volle Flexibilität und Anpassbarkeit offener Modelle bieten.

Die neuen multimodalen Llama 3.2 Vision-LLMs können auf hochauflösenden Bildern bis zu 1120x1120 Pixel argumentieren, was ihren Einsatz für Computer-Vision-Aufgaben wie Klassifizierung, Objekterkennung und -identifikation, Bild-zu-Text-Transkription (einschließlich Handschrift) durch optische Zeichenerkennung (OCR), kontextuelle Fragen und Antworten, Datenextraktion und -verarbeitung, Bildvergleich und persönliche visuelle Unterstützung ermöglicht.

Aufforderung an Llama in watsonx, anhand des Fotos eines Mädchens (das einen Basketball hält und ein Tutu trägt) auf dessen Sportart zu schließen

Dieser Ansatz der Multimodalität hat drei Hauptvorteile.

Vereinfachte Feinabstimmung: Die Parameter des Basis-LLM bleiben unverändert, wodurch das allgemeine Wissen des Modells erhalten bleibt und sichergestellt wird, dass die mit der Llama 3.1-Version erzielten bemerkenswerten Fortschritte erhalten bleiben: Llama 3.2 11B und 90B zeigten im Vergleich zu ihren Pendants 8B und 70B aus Llama 3.1 leichte Verbesserungen bei den Benchmarks für Mathematik, logisches Denken und Allgemeinwissen. Dies vereinfacht vermutlich auch den Prozess der Feinabstimmung der multimodalen Llama 3.2-Modelle, sodass die Leistung angepasst werden kann, ohne Angst vor unbeabsichtigten Folgen für die Funktionen der Bildlogik.
Hocheffizientes Training: Es ist bemerkenswert effizient im Vergleich zu typischen multimodalen Trainingsparadigmen, bei denen oft viele Milliarden Modellparameter aktualisiert werden müssen. Die Forscher hinter LLaMa-Adapter V2 stellten beispielsweise fest, dass ihre bildfokussierten Parameter nur 0,04 % des gesamten Modells ausmachen. Das Vortraining von Llama 3.2-Vision auf einem Datensatz von 6 Milliarden Bild- und Textpaaren erforderte für beide Modelle insgesamt 2,02 Millionen GPU-Stunden – deutlich weniger Rechenleistung als die 7,0 Millionen GPU-Stunden allein für das Vortraining von Llama 3.1 70B.
Geschwindigkeit und Kosteneffizienz: Es ermöglicht Llama-3.2-Modellen, zusätzliche Rechenressourcen für die Bildanalyse nur dann zu nutzen, wenn die Eingabe dies verlangt. Dies unterstreicht Metas Engagement für branchenführende Ausgabegeschwindigkeit und Kosteneffizienz und ermöglicht effiziente groß angelegte Implementierungen und Echtzeitanwendungen für zeitkritische Anwendungsfälle wie Chatbots und die Generierung dynamischer Inhalte.

Beide Modelle schneiden in gängigen multimodalen Benchmarks für Vision Language Models (VLMs) gut ab, erreichen Spitzenwerte für offene Modelle und konkurrieren oft mit modernen geschlossenen Modellen. Zum Beispiel entspricht das instruktionsoptimierte Llama 3.2 90B-Vision dem GPT-4o von OpenAI beim Diagrammverständnis (ChartQA) und schlägt sowohl Anthropics Claude 3 Opus als auch Googles Gemini 1.5 Pro bei der Interpretation wissenschaftlicher Diagramme (AI2D).¹

Ebenso erreichte Llama 3.2 11B-Vision in seiner Klasse wettbewerbsfähige Benchmark-Werte, schlug Gemini 1.5 Flash 8B im Dokumenten-Visual-Q&A (DocVQA), übertraf Claude 3 Haiku und Claude 3 Sonnet bei AI2D, ChartQA und visuellem mathematischem Schließen (MathVista) und hielt mit Pixtral 12B und Qwen2-VL 7B im allgemeinen visuellen Q&A (VQAv2) Schritt.²

Leichtgewichtige Llama-Modelle, die fast überall ausgeführt werden können

Die Llama 3.2-Kollektion enthält außerdem Varianten mit 1B- und 3B-Parametern, die die bisher kleinsten Llama-Modelle darstellen.

Aufgrund ihrer kleinen Modellgröße und der entsprechend geringen Rechen- und Speicheranforderungen kann Llama auf der meisten Hardware lokal ausgeführt werden, auch auf mobilen und anderen Edge-Geräten. Dies verleiht Llama 3.2 1B und Llama 3.2 3B das Potenzial, eine Welle von Innovationen in lokalen Anwendungen und agentischer KI auszulösen. Solche kompakten, leistungsstarken Modelle haben zwar viele Vorteile, aber die beiden wichtigsten sind vielleicht:

Die Möglichkeit zur lokalen Ausführung mit sehr geringer Latenzzeit selbst auf bescheidener Hardware, einschließlich Smartphones
Die entsprechende Fähigkeit, die Privatsphäre der Benutzer zu wahren und Bedenken hinsichtlich der Cybersicherheit auszuräumen, indem die Notwendigkeit entfällt, sensible proprietäre oder personenbezogene Daten an externe Server zu übertragen

Diese schlanken Llama 3.2-Modelle laufen lokal und können als kostengünstige Agenten zur Koordination von geräteinternen Anwendungen wie RAG, mehrsprachiger Zusammenfassung und Delegierung von Unteraufgaben dienen. Sie können auch verwendet werden, um die Kosten für die Implementierung von Sicherheitsmodellen wie Llama Guardzu senken – eine neue, multimodale Version davon ist ebenfalls in der heutigen Version von Meta enthalten und auf watsonx verfügbar.

Beide neuen leichtgewichtigen Llama-Modelle übertreffen ihre Benchmarks, insbesondere bei wichtigen Aufgaben der agentischen KI. Zum Beispiel entspricht Llama 3.2 3B dem größeren Llama 3.1 8B in der Toolnutzung (BFCL v2) und übertrifft ihn bei der Zusammenfassung (TLDR9+), wobei der 1B sowohl bei Zusammenfassungs- als auch bei Umschreibaufgaben mithalten kann. Ein deutlicher Hinweis darauf, wie weit offene LLMs in kurzer Zeit gekommen sind, übertraf Llama 3.2 3B im MATH-Benchmark deutlich den ursprünglichen GPT-4.

Warum Llama-Modelle in IBM Watsonx verwenden?

Mit der zunehmenden Verfügbarkeit leistungsstarker KI-Modelle wird es immer schwieriger, sich allein mit Standardlösungen einen Wettbewerbsvorteil zu verschaffen. Die offenen Modelle von Llama können bei Leistungsbenchmarks selbst mit den leistungsstärksten Modellen mithalten und bieten darüber hinaus Anpassungsmöglichkeiten, Transparenz und Flexibilität, die bei geschlossenen Modellen nicht möglich sind.

Anpassung: Durch den direkten Zugriff auf die Modellgewichte und die Architektur von Llama können Entwickler die Modelle an Ihre spezifischen Bedürfnisse, Domänen und Anwendungsfall anpassen. Die vortrainierten Llama 3.2-Modelle werden in den kommenden Wochen im watsonx Tuning Studio zur Feinabstimmung oder zum kontinuierlichen Vortraining verfügbar sein.
Flexibilität: Wie alle in IBM watsonx verfügbaren Foundation-Modelle können Llama-Modelle in jeder Umgebung bereitgestellt werden, sei es Cloud-, On-Premises- oder Hybridumgebungen. Im Gegensatz zu anderen Anbietern, die Benutzer auf eine bestimmte Public Cloud beschränken, ermöglicht watsonx Entwicklern, die Flexibilität von Llama voll auszuschöpfen.
Sicherheit: Metas verantwortungsvoller Ansatz für KI-Innovation bietet weiterhin eine Vielzahl wichtiger Schutzmaßnahmen. Die Llama 3.2-Kollektion umfasst ein aktualisiertes Llama Guard 3-Modell, Llama-Guard-3-11B-Vision, das eine Reihe von Eingabe-Ausgabe-Inferenzleitplanken bietet, die mit der neuen multimodalen Funktionalität von Llama kompatibel sind. IBM Watsonx verbessert verantwortungsvolle, rechenschaftspflichtige KI mit dynamischen KI-Leitplanken und robusten Sicherheits-, Datenschutz- und Sicherheitsmaßnahmen weiter.
Transparenz: Im Gegensatz zur Blackbox, die geschlossene Quellmodelle bieten, bietet das Llama-Ökosystem vollständige Sichtbarkeit, Kontrolle und Erklärbarkeit – insbesondere in Kombination mit IBMs robuster KI-Governance zur Verwaltung und Überwachung von KI in einer gesamten Organisation.

Erste Schritte mit Llama 3.2

Die Unterstützung von Llama 3.2 ist Teil von IBMs Engagement, Open-Source-Innovationen im Bereich KI zu fördern und unseren Kunden Zugang zu erstklassigen offenen Modellen in watsonx zu bieten, einschließlich Modellen von Drittanbietern und der IBM Granite-Modellfamilie.

IBM watsonx ermöglicht es Kunden, die Implementierung von Open-Source-Modellen wie Llama 3.2 wirklich individuell anzupassen – von der vollständigen Flexibilität der Bereitstellungsumgebungen bis hin zu intuitiven Arbeitsabläufen für Feinabstimmung, Prompt-Engineering und Integration mit Unternehmensanwendungen. Erstellen Sie individuelle KI-Anwendungen für Ihr Unternehmen, verwalten Sie alle Datenquellen und beschleunigen Sie verantwortungsvolle KI-Workflows – alles auf einer Plattform.

Die folgenden Modelle sind heute in IBM watsonx.ai verfügbar:

Llama-3.2-90B-Vision-Instruct (Text- und Bildeingabe)
Llama-3.2-11B-Vision-Instruct (Text- und Bildeingabe)
Llama-3.2-3B-Instruct (nur Text)
Llama-3.2-1B-Anweisung (nur Text)
Llama-Guard-3-11B-Vision (Text- und Bildeingabe)

In den kommenden Wochen werden sie von den vortrainierten Llama 3.2-Modellen ergänzt. Die „-Instruct“ -Modelle wurden alle einer überwachten Feinabstimmung (SFT) und einem bestärkenden Lernen mit menschlichem Feedback (Reinforcement Learning with Human Feedback, RLHF) unterzogen, um sie besser auf gängige Anwendungsfall und menschliche Präferenzen in Bezug auf Hilfsbereitschaft bzw. Sicherheit abzustimmen.

Testen Sie Llama 3.2 in watsonx.ai® →

Fußnoten

^{1 Zitierte Benchmark-Bewertungen proprietärer Modelle basieren auf selbstberichteten Zahlen von Anthropic vom 20. Juni 2024 (für Claude 3.5 Sonnet und Claude 3 Opus) und vom 4. März 2024 (für Claude 3 Sonnet und Haiku), von OpenAI am 13. Mai 2024 (für GPT-Modelle) und Google Deepmind im Mai und September 2024 (für Gemini-Modelle). AI2D-Tests für Gemini 1.5 Pro wurden von Anthropic gemeldet.}

^{2 Zitierte Benchmark-Bewertungen für Pixtral und Qwen-VL basieren auf Zahlen, die von Mistral AI berichtet wurden.}

Ein Enterprise-Studio der nächsten Generation für AI-Builder

Trainieren, optimieren, validieren und implementieren Sie Basismodelle im IBM Enterprise AI Studio. Erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit mit einem Bruchteil der Daten.

Für KI-Nachrichten-Updates anmelden

Optimieren Sie den Entwicklungsprozess für KI-Anwendungen mit IBM watson.ai

Meta Llama 3.2 Modelle sind jetzt auf watsonx erhältlich, einschließlich multimodaler 11B- und 90B-Modelle