Der integrierte KI-Beschleuniger ist eine Funktion des Prozessors von IBM® Telum. Es handelt sich um eine On-Chip-Verarbeitungseinheit, die speicherkohärent ist und wie jeder andere Allzweck-Core direkt mit dem Data Fabric verbunden ist. Es erhöht die KI-Leistung, indem es die Latenz zwischen KI und Daten durch Colocation minimiert.
Der IBM Telum Chip, der für IBM® Z und LinuxONE Systeme entwickelt wurde, bietet im Vergleich zum IBM® z15 eine Leistungssteigerung von über 40 %1 pro Socket. Es wird ein dedizierter On-Chip-KI-Beschleuniger eingeführt, der eine konsistente Inferenzkapazität mit geringer Latenz und hohem Durchsatz gewährleistet. Dieser Beschleuniger vereinfacht die Software-Orchestrierung und die Komplexität der Bibliothek, während der beschleunigte KI-Prozessor die KI-Integration in Unternehmen transformiert und Echtzeit-Erkenntnisse mit unübertroffener Leistung in Hybrid-Cloud-Umgebungen liefert.
In diesem Webinar geht es darum, wie IBM LinuxONE Ihnen dabei helfen kann, branchenübergreifend neue Anwendungsfälle für KI zu erschließen.
IBM arbeitet mit dem IBM LinuxONE Ecosystem zusammen, um ISVs dabei zu helfen, Lösungen für die heutigen Herausforderungen in den Bereichen KI, Nachhaltigkeit und Cybersicherheit bereitzustellen.
Entdecken Sie zwei innovative Lösungen, die auf Finanz- und Gesundheitseinrichtungen zugeschnitten sind: Clari5 Enterprise Fraud Management auf IBM LinuxONE 4 Express für Betrugsprävention in Echtzeit und die Enso Decision Intelligence Platform von Exponential AI auf LinuxONE für fortschrittliche KI-Lösungen im großen Maßstab.
Die Clari5 Enterprise Fraud Management Solution auf IBM LinuxONE 4 Express bietet Finanzinstituten eine robuste Entscheidungsmaschine für die Betrugsprävention in Echtzeit. Die Lösung wurde entwickelt, um Transaktionen zu überwachen, zu erkennen und zu beeinflussen, um die Einhaltung von Vorschriften zu gewährleisten und die Produktivität zu steigern – und das alles bei beispielloser Geschwindigkeit und Skalierbarkeit.
Die Enso Decision Intelligence Platform von Exponential AI auf LinuxONE bietet bahnbrechende Funktionen für die Erstellung, das Training, die Orchestrierung und die Verwaltung von KI-Lösungen in nahezu Echtzeit und im großen Maßstab. Diese Plattform befasst sich mit den Herausforderungen, mit denen führende nationale Krankenversicherer bei komplexen Transaktionen konfrontiert sind, und bietet intelligente Automatisierungslösungen, die von Exponential AI entwickelt wurden.
TensorFlow ist ein Open-Source-Framework für maschinelles Lernen, das eine umfassende Reihe von Tools für Modellentwicklung, Training und Inferenz bietet. Es verfügt über ein reichhaltiges, robustes Ökosystem und ist kompatibel mit LinuxONE-Umgebungen, die unter Linux ausgeführt werden.
IBM SnapML ist eine Bibliothek, die für das schnelle Training und die Inferenz gängiger maschineller Lernmodelle entwickelt wurde. Sie nutzt den IBM Integrated Accelerator for AI, um die Leistung der Modelle „Random Forest“, „Extra Trees“ und „Gradient Boosting Machines“ zu verbessern. Verfügbar als Teil des KI-Toolkits for IBM Z und LinuxONE sowie von IBM CloudPak for Data.
Der Triton Inference Server ist ein von Nvidia entwickelter Open-Source-Modellserver, der die Modellinferenz sowohl auf CPU- als auch auf GPU-Geräten unterstützt. Er ist auf verschiedenen Plattformen und Architekturen weit verbreitet, einschließlich s390x (Linux on Z). Speziell unter Linux on Z kann Triton KI-Frameworks nutzen, um sowohl die SIMD-Architektur als auch den IBM Integrated Accelerator for AI zu verwenden und so die Leistung zu optimieren.
Der IBM Z Deep Learning Compiler ist ein leistungsstarkes Tool, mit dem Data Scientists Deep-Learning-Modelle mit vertrauten Tools und Frameworks entwickeln können. Diese Modelle können dann unter Linux auf IBM Z eingesetzt werden, wo sich die geschäftskritischen Daten befinden. Dieser Compiler ermöglicht die schnelle und einfache Nutzung des Integrated Accelerator for AI des neuen Telum-Prozessors durch bestehende Modelle.
Open Neural Network Exchange (ONNX) ist ein offenes Format, das zur Darstellung von Modellen für maschinelles Lernen entwickelt wurde. ONNX definiert einen gemeinsamen Satz von Operatoren – die Bausteine von Modellen für maschinelles Lernen und Deep Learning – und ein gemeinsames Dateiformat, damit KI-Entwickler Modelle mit einer Vielzahl von Frameworks, Tools, Laufzeiten und Compilern verwenden können.
1 Der IBM Telum-Prozessor auf IBM z16® bietet eine Leistungssteigerung von über 40 % pro Socket gegenüber dem IBM z15-Prozessor.
HAFTUNGSAUSSCHLUSS: Ergebnisse basieren auf der technischen Analyse der Gesamtverarbeitungskapazität, die der IBM Telum-Prozessor und der IBM z15-Prozessor anbietet, sowie auf den IBM Large System Performance Reference (LSPR)-Kennzahlen, die unter: https://www.ibm.com/support/pages/ibm-z-large-systems-performance-reference veröffentlicht wurden. Die Anzahl der für den allgemeinen Gebrauch zugänglichen Kerne pro Prozessorsocket variiert je nach Systemkonfiguration. Die Gesamtverarbeitungskapazität variiert je nach Workload, Konfiguration und Softwareversion.
2 Die On-Chip-KI-Beschleunigung soll bis zu 5,8 TFLOPS Rechenleistung liefern, die von allen Kernen des Chips gemeinsam genutzt wird.
HAFTUNGSAUSSCHLUSS: Das Ergebnis ist die maximale theoretische Anzahl von Gleitkomma-Operationen pro Sekunde (FLOPS) in 16-Bit-Präzision, die von einer einzigen On-Chip-KI-Engine ausgeführt werden kann. Es gibt eine On-Chip-KI-Engine pro Chip.
3 HAFTUNGSAUSSCHLUSS: Das Leistungsergebnis wurde aus IBM-internen Tests extrapoliert, bei denen lokale Inferenzoperationen in einer IBM LinuxONE Emperor 4 LPAR mit 48 Kernen und 128 GB Speicher unter Ubuntu 20.04 (SMT-Modus) mit einem synthetischen Modell zur Erkennung von Kreditkartenbetrug durchgeführt wurden (https://github.com/IBM/ai-on-z-fraud-detection) Nutzung des integrierten Accelerator for AI. Der Benchmark-Test wurde mit 8 parallelen Threads ausgeführt, die jeweils an den ersten Kern eines anderen Chips angeheftet waren. Der Befehl „lscpu“ wurde verwendet, um die Kern-Chip-Topologie zu identifizieren. Es wurde eine Batch-Größe von 128 Inferenzoperationen verwendet. Die Ergebnisse variieren.