IBM kündigt die Verfügbarkeit mehrerer Llama 3.2-Modelle auf watsonx.ai an, IBMs Enterprise Studio für KI-Entwickler, im Anschluss an die Veröffentlichung der Llama 3.2-Sammlung vortrainierter und auf Anweisungen abgestimmter mehrsprachiger großer Sprachmodelle (LLMs) auf der MetaConnect heute Vormittag.
Vor allem istLlama 3.2 der erste Vorstoß von Meta in die multimodale KI: Die Version enthält zwei Modelle in den Größen 11B und 90B, die Bilder als Eingabe aufnehmen können. Die instruktionsoptimierten Llama 3.2 90B Vision- und 11B Vision-Modelle sind sofort in watsonx.ai über SaaS verfügbar.
In watsonx.ai sind auch die bisher kleinsten Llama-Modelle eingetroffen: zwei Texteingabe-, Textausgabe-LLMs in den Größen 1B und 3B. Alle Llama 3.2-Modelle unterstützen lange Kontextlängen (bis zu 128K Token) und sind für schnelle und effiziente Inferenz mit gruppierter Abfrageaufmerksamkeit optimiert. Meta gibt an, dass Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch offiziell unterstützt werden, weist aber darauf hin, dass Llama 3.2 für weitere Sprachen trainiert wurde und Entwickler die Llama 3.2-Modelle auch für diese weiteren Sprachen feinabstimmen können.
Diese neuesten Ergänzungen von Meta ergänzen die umfangreiche Bibliothek von Foundation Models, die in watsonx.ai® verfügbar sind, was der offenen, modellübergreifenden Strategie von IBM in Bezug auf generative KI entspricht.
„Indem wir unsere neuesten Llama 3.2-Modelle auf watsonx verfügbar machen, kann ein viel größerer Kreis von Unternehmen von diesen Innovationen profitieren und unsere neuesten Modelle problemlos, nach ihren eigenen Bedingungen und in Hybrid-Cloud-Umgebungen bereitstellen“, sagt Ahmad Al-Dahle, Head of GenAi bei Meta. „Wir bei Meta glauben, dass es unerlässlich ist, KI-Lösungen auf die spezifischen Bedürfnisse jedes Unternehmens zuzuschneiden und sie in die Lage zu versetzen, Llama-Lösungen einfach bereitzustellen. Unsere Partnerschaft mit IBM, einem Unternehmen, das unser Engagement für Offenheit, Sicherheit, Vertrauen und Transparenz teilt, ermöglicht uns genau das.“
Lesen Sie weiter, um mehr über die Llama 3.2-Kollektion zu erfahren, darunter neue multimodale Funktionen, neue Bereitstellung auf mobilen und anderen Edge-Geräten, aktualisierte Sicherheitsfunktionen und mehr.
Im Gegensatz zu ihren ausschließlich textbasierten LLM-Vorgängern der Llama-Reihe haben Llama 3.2 11B und Llama 3.2 90B ihre Funktionen erweitert, um Bild-Ein- und Text-Aus-Anwendungsfälle wie Dokumenten-Verständnis, Interpretation von Diagrammen und Graphen sowie Bildunterschriften einzuschließen. Entwickler haben jetzt Zugang zu leistungsstarken visuellen Argumentationsmodellen, die an die fortschrittlichen Funktionen geschlossener Modelle heranreichen und gleichzeitig die volle Flexibilität und Anpassbarkeit offener Modelle bieten.
Die neuen multimodalen Llama 3.2 Vision-LLMs können auf hochauflösenden Bildern bis zu 1120x1120 Pixel argumentieren, was ihren Einsatz für Computer-Vision-Aufgaben wie Klassifizierung, Objekterkennung und -identifikation, Bild-zu-Text-Transkription (einschließlich Handschrift) durch optische Zeichenerkennung (OCR), kontextuelle Fragen und Antworten, Datenextraktion und -verarbeitung, Bildvergleich und persönliche visuelle Unterstützung ermöglicht.
Dieser Ansatz der Multimodalität hat drei Hauptvorteile.
Beide Modelle schneiden in gängigen multimodalen Benchmarks für Vision Language Models (VLMs) gut ab, erreichen Spitzenwerte für offene Modelle und konkurrieren oft mit modernen geschlossenen Modellen. Zum Beispiel entspricht das instruktionsoptimierte Llama 3.2 90B-Vision dem GPT-4o von OpenAI beim Diagrammverständnis (ChartQA) und schlägt sowohl Anthropics Claude 3 Opus als auch Googles Gemini 1.5 Pro bei der Interpretation wissenschaftlicher Diagramme (AI2D).1
Ebenso erreichte Llama 3.2 11B-Vision in seiner Klasse wettbewerbsfähige Benchmark-Werte, schlug Gemini 1.5 Flash 8B im Dokumenten-Visual-Q&A (DocVQA), übertraf Claude 3 Haiku und Claude 3 Sonnet bei AI2D, ChartQA und visuellem mathematischem Schließen (MathVista) und hielt mit Pixtral 12B und Qwen2-VL 7B im allgemeinen visuellen Q&A (VQAv2) Schritt.2
Die Llama 3.2-Kollektion enthält außerdem Varianten mit 1B- und 3B-Parametern, die die bisher kleinsten Llama-Modelle darstellen.
Aufgrund ihrer kleinen Modellgröße und der entsprechend geringen Rechen- und Speicheranforderungen kann Llama auf der meisten Hardware lokal ausgeführt werden, auch auf mobilen und anderen Edge-Geräten. Dies verleiht Llama 3.2 1B und Llama 3.2 3B das Potenzial, eine Welle von Innovationen in lokalen Anwendungen und agentischer KI auszulösen. Solche kompakten, leistungsstarken Modelle haben zwar viele Vorteile, aber die beiden wichtigsten sind vielleicht:
Diese schlanken Llama 3.2-Modelle laufen lokal und können als kostengünstige Agenten zur Koordination von geräteinternen Anwendungen wie RAG, mehrsprachiger Zusammenfassung und Delegierung von Unteraufgaben dienen. Sie können auch verwendet werden, um die Kosten für die Implementierung von Sicherheitsmodellen wie Llama Guardzu senken – eine neue, multimodale Version davon ist ebenfalls in der heutigen Version von Meta enthalten und auf watsonx verfügbar.
Beide neuen leichtgewichtigen Llama-Modelle übertreffen ihre Benchmarks, insbesondere bei wichtigen Aufgaben der agentischen KI. Zum Beispiel entspricht Llama 3.2 3B dem größeren Llama 3.1 8B in der Toolnutzung (BFCL v2) und übertrifft ihn bei der Zusammenfassung (TLDR9+), wobei der 1B sowohl bei Zusammenfassungs- als auch bei Umschreibaufgaben mithalten kann. Ein deutlicher Hinweis darauf, wie weit offene LLMs in kurzer Zeit gekommen sind, übertraf Llama 3.2 3B im MATH-Benchmark deutlich den ursprünglichen GPT-4.
Mit der zunehmenden Verfügbarkeit leistungsstarker KI-Modelle wird es immer schwieriger, sich allein mit Standardlösungen einen Wettbewerbsvorteil zu verschaffen. Die offenen Modelle von Llama können bei Leistungsbenchmarks selbst mit den leistungsstärksten Modellen mithalten und bieten darüber hinaus Anpassungsmöglichkeiten, Transparenz und Flexibilität, die bei geschlossenen Modellen nicht möglich sind.
Die Unterstützung von Llama 3.2 ist Teil von IBMs Engagement, Open-Source-Innovationen im Bereich KI zu fördern und unseren Kunden Zugang zu erstklassigen offenen Modellen in watsonx zu bieten, einschließlich Modellen von Drittanbietern und der IBM Granite-Modellfamilie.
IBM watsonx ermöglicht es Kunden, die Implementierung von Open-Source-Modellen wie Llama 3.2 wirklich individuell anzupassen – von der vollständigen Flexibilität der Bereitstellungsumgebungen bis hin zu intuitiven Arbeitsabläufen für Feinabstimmung, Prompt-Engineering und Integration mit Unternehmensanwendungen. Erstellen Sie individuelle KI-Anwendungen für Ihr Unternehmen, verwalten Sie alle Datenquellen und beschleunigen Sie verantwortungsvolle KI-Workflows – alles auf einer Plattform.
Die folgenden Modelle sind heute in IBM watsonx.ai verfügbar:
In den kommenden Wochen werden sie von den vortrainierten Llama 3.2-Modellen ergänzt. Die „-Instruct“ -Modelle wurden alle einer überwachten Feinabstimmung (SFT) und einem bestärkenden Lernen mit menschlichem Feedback (Reinforcement Learning with Human Feedback, RLHF) unterzogen, um sie besser auf gängige Anwendungsfall und menschliche Präferenzen in Bezug auf Hilfsbereitschaft bzw. Sicherheit abzustimmen.