Accueil Calcul et serveurs LinuxONE Integrated Accelerator for AI on IBM LinuxONE
Raisonnement inférentiel IA haute performance colocalisé avec vos données
Lire le blog
Illustration avec des plantes qui poussent, l'IA qui fait de l'analytique, et un bouclier pour la sécurité

L'accélérateur d'IA intégré est une fonctionnalité du processeur IBM Telum. Il s'agit d'une unité de traitement sur puce cohérente en mémoire et directement connectée au réseau comme tout autre cœur à usage général. Il accélère les performances d'inférence IA en minimisant la latence entre l'IA et les données grâce à la colocalisation.

La puce IBM Telum, conçue pour les systèmes IBM Z et LinuxONE, offre une croissance des performances de plus de 40 % 1 par socket par rapport à la puce IBM z15. Cela introduit un accélérateur d'IA dédié sur puce, garantissant une capacité d'inférence à faible latence et à haut débit constante. Cet accélérateur simplifie l'orchestration logicielle et la complexité des bibliothèques, tandis que le processeur IA accéléré transforme l'intégration de l'IA dans les entreprises, fournissant des informations en temps réel avec des performances inégalées dans les environnements cloud hybrides.

Stimulez la croissance de votre activité grâce à l’IA sur IBM LinuxONE

Ce webinaire aborde les possibilités offertes par IBM LinuxONE pour exploiter de nouveaux cas d’utilisation de l’IA dans tous les secteurs d’activité.

Fonctionnalités Le Telum est le processeur central des systèmes LinuxONE de nouvelle génération. En savoir plus sur l'architecture, la microarchitecture de l'accélérateur d'IA d'IBM Telum, son intégration dans la pile système, ses performances et sa consommation d'énergie. En savoir plus sur le microprocesseur de nouvelle génération pour LinuxONE Améliorer les informations en temps réel

L'accélérateur conserve la cohérence de la mémoire et se connecte directement au fabric, tout comme les autres cœurs à usage général. Cela lui permet de prendre en charge l'inférence à faible latence tout en respectant le taux de transaction du système. Cette fonctionnalité permet aux entreprises d'intégrer des analyses en temps réel avec des performances inégalées.

Surmonter les défis liés aux workloads d’IA

L'intégration de l'IA dans les workloads d'entreprise se heurte souvent à des obstacles en raison d'un faible débit d'exécution sur la plateforme. Cependant, l'accélérateur d'IA intégré sur puce peut offrir un débit élevé, avec une capacité d'inférence dépassant les 200 TFLOPS dans un système à 32 puces2.

Améliorer les performances de l'IA

La puce Telum inclut une accélération de l'IA sur puce, augmentant la vitesse et l'échelle d'inférence. Dans le modèle de détection des fraudes d'une banque internationale, l'accélérateur d'IA atteint une accélération de 22 fois par rapport aux cœurs à usage général, permettant d'effectuer 116 000 inférences par seconde avec une latence de seulement 1,1 ms. En étendant l'installation à 32 puces, la latence reste faible à 1,2 ms tout en effectuant plus de 3,5 millions d'inférences par seconde3.

Cas d’utilisation Détection des fraudes

Relevez le défi de la notation des transactions en temps réel en surmontant les limitations de latence réseau et d'évolutivité associées aux moteurs de notation hors plateforme. Cela peut se traduire par une augmentation significative de la sécurité des transactions, avec un pourcentage plus élevé de transactions protégées avec succès contre la fraude. 

Imagerie médicale

L'utilisation de la vision par ordinateur et de modèles d'analyse d'images par apprentissage profond permet de traiter et de valider rapidement les dossiers médicaux, ouvrant la voie à une vérification en temps quasi réel des demandes de remboursement auprès des compagnies d'assurance. Cette approche permet d'optimiser la vitesse et l'efficacité du traitement en consolidant les ressources de calcul.

Applications ISV

IBM collabore avec l’ IBM LinuxONE Ecosystem pour aider les éditeurs de logiciels indépendants à fournir des solutions aux défis actuels en matière d’IA, de développement durable et de cybersécurité.

Découvrez deux solutions innovantes pour la finance et la santé : Clari5 Enterprise Fraud Management on IBM LinuxONE 4 Express pour la prévention de la fraude en temps réel et la plateforme Enso Decision Intelligence d'Exponential AI sur LinuxONE pour des solutions d'IA avancées à l'échelle.

Clari5

La solution Clari5 Enterprise Fraud Management sur IBM LinuxONE 4 Express dote les institutions financières d'un moteur de décision performant pour la prévention de la fraude en temps réel. Conçue pour surveiller, détecter et influencer les transactions, elle garantit la conformité et améliore la productivité, tout en offrant une vitesse et une évolutivité inégalées.

Exponential AI

La plateforme Enso Decision Intelligence d'Exponential AI sur LinuxONE offre des capacités de pointe pour la construction, la formation, l'orchestration et la gestion de solutions d'IA en temps quasi réel et à l'échelle. Cette plateforme, grâce aux solutions d'automatisation intelligente développées par Exponential AI, répond aux défis rencontrés par les principaux organismes nationaux d'assurance maladie face aux transactions complexes.

Logiciel qui exploite Telum
Favoriser le développement de modèles TensorFlow

TensorFlow est un cadre open source de machine learning qui offre un ensemble complet d'outils pour le développement, l'entraînement et l'inférence de modèles. Il dispose d'un écosystème riche et robuste et est compatible avec les environnements LinuxONE fonctionnant sous Linux.

Découvrez les services TensorFlow et TensorFlow

Machine learning efficace IBM SnapML

IBM SnapML est une bibliothèque conçue pour l'entraînement et l'inférence rapides de modèles de machine learning courants. Elle tire parti de l'accélérateur d'IA intégré d'IBM pour améliorer les performances des modèles Random Forest, Extra Trees et Gradient Boosting Machines. Disponible dans le cadre de la boîte à outils AI pour IBM Z et LinuxONE et IBM CloudPak for Data.

Découvrir IBM Snap Machine Learning

Optimiser l’inférence Serveur d’inférence Triton

Triton Inference Server est un serveur d'inférence de modèles open source développé par Nvidia qui prend en charge l'inférence de modèles sur les processeurs (CPU) et les cartes graphiques (GPU). Il est largement utilisé sur diverses plateformes et architectures, y compris s390x (Linux on Z). Sur Linux on Z, Triton Inference Server peut exploiter des cadres d'IA pour tirer parti à la fois de l'architecture SIMD et de l'accélérateur d'IA intégré d'IBM, optimisant ainsi les performances.

Découvrir Triton Inference Server
Responsabiliser les data scientists Compilateur d’apprentissage profond IBM Z

Le Compiler Deep Learning d'IBM Z est un outil puissant qui permet aux data scientists de développer des modèles de deep learning à l'aide d'outils et de cadres familiers. Ces modèles peuvent ensuite être déployés sur Linux on IBM Z, où résident les données critiques. Ce compilateur facilite l'utilisation rapide et aisée de l'accélérateur d'IA intégré du nouveau processeur Telum par les modèles existants.

Découvrir IBM Z Deep Learning Compiler
Format de modèle portable
Open Neural Network Exchange

Open Neural Network Exchange (ONNX) est un format ouvert conçu pour représenter les modèles de machine learning. ONNX définit un ensemble commun d'opérateurs—les éléments de base des modèles de machine learning et de deep learning—et un format de fichier commun pour permettre aux développeurs d'IA d'utiliser des modèles avec une variété de frameworks, d'outils, d'environnements d'exécution et de compilateurs.

Découvrir ONNX
Solutions intégrées

Découvrez des solutions d'intégration d'IA fluides et conçues pour les systèmes IBM Z et LinuxONE. 

Améliorer les performances de l'IA

La boîte à outils d'IA pour IBM Z et LinuxONE comprend une sélection de cadres d'IA open source populaires, accompagnés du support technique IBM Elite. Elle est optimisée pour exploiter l'accélérateur d'IA intégré d'IBM Z, ce qui améliore considérablement les performances des programmes d'IA open source et non garantis par IBM.

Découvrir la série d’outils d’IA pour IBM Z et LinuxONE
Optimisation des workloads d'IA

L’offre AI Bundle for IBM LinuxONE propose une infrastructure matérielle dédiée à l'IA avec une pile logicielle optimisée pour les cœurs de processeur. En exploitant la puissance du processeur IBM Telum doté de l'accélérateur d'IA intégré, les entreprises peuvent effectuer des inférences pour des workloads à volume élevé et à grande échelle.

Découvrir AI Bundle for IBM LinuxONE
Rationaliser la gestion des données :

IBM Cloud Pak for Data est un ensemble modulaire de composants logiciels intégrés, conçus pour l'analyse, l'organisation et la gestion des données. Il permet d'améliorer la productivité et de réduire la complexité en facilitant la construction d'une data fabric. Cette data fabric connecte les données en silos réparties dans un environnement cloud hybride.

Explorer IBM Cloud Pak for Data Lire le Redbook
Passez à l’étape suivante

Pour en savoir plus, programmez dès maintenant un rendez-vous gratuit de 30 minutes avec un représentant IBM LinuxONE.

Lancez-vous en IA avec LinuxONE
Autres moyens d’information Documentation Support IBM Redbooks Support et services Financement global Communauté Communauté de développeurs Partenaires Ressources
Notes de bas de page

1 Le processeur IBM Telum sur IBM z16 augmente les performances de plus de 40 % par socket par rapport au processeur IBM z15.

CLAUSE DE PROTECTION : Les résultats sont basés sur une analyse technique de la capacité de traitement totale offerte par le processeur IBM Telum et le processeur IBM z15, ainsi que sur les rapports IBM LSPR (Large System Performance Reference) publiés à l'adresse suivante :  https://www.ibm.com/support/pages/ibm-z-large-systems-performance-reference. Le nombre de cœurs par socket de processeur accessible pour un usage général varie en fonction de la configuration du système. La capacité totale de traitement varie en fonction de la charge de travail, de la configuration et des niveaux logiciels.

2  L'accélération d'IA intégrée sur puce est conçue pour ajouter une puissance de traitement pouvant atteindre 5,8 TFLOPS, partagée par tous les cœurs de la puce.

AVERTISSEMENT : Le résultat correspond au nombre théorique maximal d'opérations en virgule flottante par seconde (FLOPS) en précision 16 bits pouvant être exécutées par un seul moteur d'IA intégré sur puce. Un moteur d'IA intégré sur puce est présent par puce.

3 CLAUSE DE PROTECTION : les résultats de performance sont extrapolés à partir de tests internes d’IBM exécutant des opérations d’inférence locale dans un LPAR IBM LinuxONE Emperor 4 à 48 cœurs et 128 Go de mémoire sur Ubuntu 20.04 (mode SMT) avec un modèle synthétique de détection des fraudes à la carte de crédit (https://github.com/IBM/ai-on-z-fraud-detection) exploitant l’accélérateur intégré pour l’IA. Le test de performances a été exécuté avec 8 unités d’exécution parallèles, chacune reliée au cœur principal d’une puce différente. La commande lscpu a été utilisée pour identifier la topologie cœur-puce. Une taille de lot de 128 opérations d’inférence a été utilisée. Les résultats varient.