L'accélérateur d'IA intégré est une fonctionnalité du processeur IBM Telum. Il s'agit d'une unité de traitement sur puce cohérente en mémoire et directement connectée au réseau comme tout autre cœur à usage général. Il accélère les performances d'inférence IA en minimisant la latence entre l'IA et les données grâce à la colocalisation.
La puce IBM Telum, conçue pour les systèmes IBM Z et LinuxONE, offre une croissance des performances de plus de 40 % 1 par socket par rapport à la puce IBM z15. Cela introduit un accélérateur d'IA dédié sur puce, garantissant une capacité d'inférence à faible latence et à haut débit constante. Cet accélérateur simplifie l'orchestration logicielle et la complexité des bibliothèques, tandis que le processeur IA accéléré transforme l'intégration de l'IA dans les entreprises, fournissant des informations en temps réel avec des performances inégalées dans les environnements cloud hybrides.
Ce webinaire aborde les possibilités offertes par IBM LinuxONE pour exploiter de nouveaux cas d’utilisation de l’IA dans tous les secteurs d’activité.
IBM collabore avec l’ IBM LinuxONE Ecosystem pour aider les éditeurs de logiciels indépendants à fournir des solutions aux défis actuels en matière d’IA, de développement durable et de cybersécurité.
Découvrez deux solutions innovantes pour la finance et la santé : Clari5 Enterprise Fraud Management on IBM LinuxONE 4 Express pour la prévention de la fraude en temps réel et la plateforme Enso Decision Intelligence d'Exponential AI sur LinuxONE pour des solutions d'IA avancées à l'échelle.
La solution Clari5 Enterprise Fraud Management sur IBM LinuxONE 4 Express dote les institutions financières d'un moteur de décision performant pour la prévention de la fraude en temps réel. Conçue pour surveiller, détecter et influencer les transactions, elle garantit la conformité et améliore la productivité, tout en offrant une vitesse et une évolutivité inégalées.
La plateforme Enso Decision Intelligence d'Exponential AI sur LinuxONE offre des capacités de pointe pour la construction, la formation, l'orchestration et la gestion de solutions d'IA en temps quasi réel et à l'échelle. Cette plateforme, grâce aux solutions d'automatisation intelligente développées par Exponential AI, répond aux défis rencontrés par les principaux organismes nationaux d'assurance maladie face aux transactions complexes.
TensorFlow est un cadre open source de machine learning qui offre un ensemble complet d'outils pour le développement, l'entraînement et l'inférence de modèles. Il dispose d'un écosystème riche et robuste et est compatible avec les environnements LinuxONE fonctionnant sous Linux.
IBM SnapML est une bibliothèque conçue pour l'entraînement et l'inférence rapides de modèles de machine learning courants. Elle tire parti de l'accélérateur d'IA intégré d'IBM pour améliorer les performances des modèles Random Forest, Extra Trees et Gradient Boosting Machines. Disponible dans le cadre de la boîte à outils AI pour IBM Z et LinuxONE et IBM CloudPak for Data.
Triton Inference Server est un serveur d'inférence de modèles open source développé par Nvidia qui prend en charge l'inférence de modèles sur les processeurs (CPU) et les cartes graphiques (GPU). Il est largement utilisé sur diverses plateformes et architectures, y compris s390x (Linux on Z). Sur Linux on Z, Triton Inference Server peut exploiter des cadres d'IA pour tirer parti à la fois de l'architecture SIMD et de l'accélérateur d'IA intégré d'IBM, optimisant ainsi les performances.
Le Compiler Deep Learning d'IBM Z est un outil puissant qui permet aux data scientists de développer des modèles de deep learning à l'aide d'outils et de cadres familiers. Ces modèles peuvent ensuite être déployés sur Linux on IBM Z, où résident les données critiques. Ce compilateur facilite l'utilisation rapide et aisée de l'accélérateur d'IA intégré du nouveau processeur Telum par les modèles existants.
Open Neural Network Exchange (ONNX) est un format ouvert conçu pour représenter les modèles de machine learning. ONNX définit un ensemble commun d'opérateurs—les éléments de base des modèles de machine learning et de deep learning—et un format de fichier commun pour permettre aux développeurs d'IA d'utiliser des modèles avec une variété de frameworks, d'outils, d'environnements d'exécution et de compilateurs.
1 Le processeur IBM Telum sur IBM z16 augmente les performances de plus de 40 % par socket par rapport au processeur IBM z15.
CLAUSE DE PROTECTION : Les résultats sont basés sur une analyse technique de la capacité de traitement totale offerte par le processeur IBM Telum et le processeur IBM z15, ainsi que sur les rapports IBM LSPR (Large System Performance Reference) publiés à l'adresse suivante : https://www.ibm.com/support/pages/ibm-z-large-systems-performance-reference. Le nombre de cœurs par socket de processeur accessible pour un usage général varie en fonction de la configuration du système. La capacité totale de traitement varie en fonction de la charge de travail, de la configuration et des niveaux logiciels.
2 L'accélération d'IA intégrée sur puce est conçue pour ajouter une puissance de traitement pouvant atteindre 5,8 TFLOPS, partagée par tous les cœurs de la puce.
AVERTISSEMENT : Le résultat correspond au nombre théorique maximal d'opérations en virgule flottante par seconde (FLOPS) en précision 16 bits pouvant être exécutées par un seul moteur d'IA intégré sur puce. Un moteur d'IA intégré sur puce est présent par puce.
3 CLAUSE DE PROTECTION : les résultats de performance sont extrapolés à partir de tests internes d’IBM exécutant des opérations d’inférence locale dans un LPAR IBM LinuxONE Emperor 4 à 48 cœurs et 128 Go de mémoire sur Ubuntu 20.04 (mode SMT) avec un modèle synthétique de détection des fraudes à la carte de crédit (https://github.com/IBM/ai-on-z-fraud-detection) exploitant l’accélérateur intégré pour l’IA. Le test de performances a été exécuté avec 8 unités d’exécution parallèles, chacune reliée au cœur principal d’une puce différente. La commande lscpu a été utilisée pour identifier la topologie cœur-puce. Une taille de lot de 128 opérations d’inférence a été utilisée. Les résultats varient.